全米主要AIラボがCAISI事前評価に合意——セーフガードを外したフロンティアモデルを政府が国家安全保障の観点で審査する仕組み

何が起きたか

2026年5月5日、米国商務省傘下のCAISI（Center for AI Standards and Innovation）は、Microsoft・Google DeepMind・xAIの3社とフロンティアAIモデルの国家安全保障評価に関する協定を締結したと発表した。

これによって、全米の主要なフロンティアAIラボが揃って政府の事前審査プログラムに参加する体制が整った。

CAISI フロンティア AI 評価 参加ラボ（2026-05-05時点）

2024年から参加済み:
  ├─ OpenAI  （GPT-5.5 / Codex 他）
  └─ Anthropic（Claude Mythos Preview 他）

2026年5月5日に新規署名:
  ├─ Microsoft （Phi-5 / Azure AI 他）
  ├─ Google DeepMind（Gemini 3 Ultra 他）
  └─ xAI         （Grok 3 他）

直接の引き金となったのはAnthropic の Claude Mythos Previewだ。同モデルはあらゆるメジャーOSおよびブラウザの未知のゼロデイ脆弱性を自律的に発見・悪用できることが確認されており、AI が「国家安全保障上のリスク」になりうるという議論が Washington で一気に加速した。

CAISI とは何か

CAISI（Center for AI Standards and Innovation）は、NISTの傘下に2023年に設置されたAI評価機関だ。AI安全保障標準の策定と、フロンティアモデルの能力・リスク評価を担う。

CAISI の役割

商務省 / NIST
  └─ CAISI
       ├─ 能力評価（ベンチマーク・レッドチーム）
       ├─ 国家安全保障リスク評価
       ├─ TRAINS Taskforce（省庁横断タスクフォース）
       └─ 評価結果のフィードバック（非公開）

評価実績: 2026年5月時点で40件以上のモデル評価を完了済み

TRAINS Taskforce（Taskforce on Risks from AI Systems to National Security）は、国防総省・CIA・NSA・FBIなど複数省庁のAI安全保障専門家で構成される省庁横断チームだ。CAISIの評価活動と連携し、評価結果を機密扱いでフィードバックする。

評価でどこまでやるのか——「セーフガード削減」の意味

今回の協定の最大の特徴は、評価時にはモデルの安全対策（セーフガード）を削減または無効化した状態でアクセスできるという点だ。

通常、公開されているAPIには以下のようなセーフガードが施されている。

一般公開モデルのセーフガード（例）
  ├─ コンテンツフィルター（有害出力の拒否）
  ├─ RLHF/DPOによる安全チューニング
  ├─ ハードコードされた拒否パターン
  └─ レート制限・アクセス制御

CAISI評価用モデル
  ├─ 一部または全セーフガードを無効化
  ├─ 機密ネットワーク内での評価が可能
  └─ 未公開の事前トレーニング済み重みへのアクセスも含む

これにより、モデルが「本来どこまでできるか」を評価者が正確に把握できる。安全対策が有効な状態では、リスクがあっても拒否されるため、真の能力上限を測定できないためだ。

評価の種類

協定に基づき、CAISIは以下の2種類の評価を実施できる。

評価タイプ	タイミング	目的
事前評価（Pre-deployment）	公開前	国家安全保障リスクの事前把握
事後評価（Post-deployment）	公開後	実運用における追加リスクの確認

また、「AI の進歩に迅速に対応できる柔軟性を持つように協定が起草された」と NIST は発表しており、今後の強力なモデルにも適用できる体制を維持している。

開発者・企業が把握すべきこと

現時点でこの評価プログラムはフロンティアラボ（大規模モデルの開発元）を対象としており、APIを利用するアプリケーション開発者に直接の審査義務は生じない。ただし、以下の点は重要だ。

1. モデルリリーススケジュールへの影響

従来のリリースフロー（概念図）
  訓練完了 → 内部評価 → API公開

今後想定されるフロー
  訓練完了 → 内部評価 → CAISI提出 → 評価（数週間）→ API公開
                                          ↑
                                   期間は非公表・モデルにより変動

CAISI評価が必須化または事実上の標準となれば、新モデルのリリースサイクルが伸びる可能性がある。現時点では任意の協定であり、法的義務はない。

2. エンタープライズ向けモデルへの影響

「機密ネットワーク内での評価に対応」とされており、政府機関・防衛分野向けのエンタープライズAI契約では、このCAISI評価済みステータスが調達要件になる可能性がある。

3. Anthropic Mythos と Project Glasswing の接続

評価の直接の引き金となったMythosは商業公開されておらず、代わりに Anthropic は「Project Glasswing」として AWS・Apple・Cisco・CrowdStrike・Linux Foundation・Microsoft・NVIDIA・Palo Alto Networks・JPMorgan Chase・Google らと防御目的での脆弱性発見に活用している（$100M相当のモデル利用クレジットを提供）。今回の CAISI 協定は、この防御活用の政府版と位置づけられる。

注意点・未確認事項

評価結果の公開範囲: 評価結果が機密扱いとなるか、何らかの形で公開されるかは現時点で不明。NIST のプレスリリースには明示されていない。
審査期間: 1モデルあたりの評価にかかる期間は非公表。
強制力: 現時点ではすべて任意の協定。AI規制法案が進めば義務化される可能性があるが、時期は不確定。
中国・EU のラボ: 今回は米国のラボのみが対象。Mistral（フランス）・DeepSeek（中国）などへの適用は議論されていない。
本稿の情報: NIST 公式発表・Bloomberg・Axios・Tom’s Hardware・Al Jazeeraの報道をベースに構成しているが、技術仕様の詳細は各社の協定内容が非公開のため推測を含む。

参考リンク

注記: 本稿は2026-05-06時点の公開情報に基づく。評価の技術的詳細・期間・義務化の有無は今後の進展により変わる可能性がある。

S	公式ソース確認済み
A	成功実績多数・失敗例少数
B	賛否両論
C	動作未確認・セキュリティリスク高
Z	個人所感