SJ blog
ai
A

信頼度ランク

S 公式ソース確認済み
A 成功実績多数・失敗例少数
B 賛否両論
C 動作未確認・セキュリティリスク高
Z 個人所感

Stanford AI Index 2026 — 急進する性能、拡大する信頼格差、止まらない投資

Stanford HAIが発表したAI Index 2026の主要知見を解説。SWE-benchはほぼ満点、米中の差は消滅、組織採用率88%に達する一方で公衆の信頼は過去最低水準に。

一言結論

Stanford AI Index 2026が示す最大の矛盾は、SWE-benchがほぼ100%に達するなどAI性能は史上最速で向上しているにもかかわらず、AIに対する公衆の信頼は逆に低下し、米国では政府のAI規制への信頼がわずか31%という危機的状況にあることだ。

Stanford AI Index とは

スタンフォード大学人間中心AI研究所(HAI)が毎年発表する「AI Index Report」は、AI開発の現状を多角的に計測する最も信頼性の高い年次報告書のひとつです。2026年版は2026年4月13日に公開されました。

今回のレポートは「かつてないほどの能力向上」と「深刻な信頼の危機」という相反する現実を同時に記録しています。


能力の急進 — ベンチマークが示す数字

SWE-bench Verified: 1年で60% → 100%近くに

ソフトウェアエンジニアリング能力を測る代表的ベンチマーク「SWE-bench Verified」でのスコアは、1年で劇的に変化しました。

2025年初頭: 約 60%
2026年4月現在: 100% に近い水準

これはAIがGitHub Issues のバグ修正タスクをほぼ確実に解けるレベルに到達したことを示します。

Humanity’s Last Exam: 8.8% → 50%超へ

人類の知識の限界を試す「Humanity’s Last Exam」(PhD レベルの難問集)でも驚異的な成長が見られます。

2025年初頭 (OpenAI o1): 8.8%
2026年4月 (Claude Opus 4.6、Gemini 3.1 Pro 等): 50% 超

ただしこれは「難問の半分しか解けない」ということでもあります。

「ギザギザのフロンティア(Jagged Frontier)」現象

最高性能のモデルでも、タスクによって能力が極端に異なる現象が続いています。

タスク性能
PhD レベルの科学問題人間を超える
競技プログラミング上位人間レベル
アナログ時計の読み取り正答率 50.1%(ほぼランダム)
複雑な科学的ワークフロー人間の専門家に劣る

Nature誌が報告したように、「AIエージェントは複雑な科学タスクで人間の科学者に大差で負ける」という結果が出ており、強さと弱さが隣り合わせの状態です。


地政学的変化 — 米中格差の消滅

2024年までは「米国のAIモデルが中国を大きく上回る」という構図でしたが、2026年のレポートはこれを大きく修正しています。

2024年:  米国モデルが主要ベンチマークで圧倒
2025年:  格差が急速に縮小
2026年:  米国と中国のモデルが主要ベンチマークの首位を交互に占める

DeepSeek、Qwen(Alibaba)、Kimi(Moonshot AI)などの中国モデルが複数のベンチマークでトップクラスに到達しています。


採用と活用 — 組織採用率が88%に

企業・組織での採用

組織レベルのAI採用率:    88%(過去最高)
大学生のGenAI利用率:     4人中4人に近い(81%)
世界人口のGenAI利用率:   53%(PCやインターネット普及より速いペース)

生産性向上の実測値

カスタマーサポート:   14〜26% の生産性向上
ソフトウェア開発:    14〜26% の生産性向上
マーケティング:      最大 72% の生産性向上

ただしエージェント活用はまだ初期段階

AIエージェント(自律的にタスクを実行するAI)の実業務での活用は、ほぼすべての部門でまだ**一桁台(%)**にとどまっています。ツールとして生成AIを「使う」ことと、プロセスに自律エージェントを「組み込む」ことは別次元の話です。


信頼の危機 — 専門家と一般公衆の断絶

政府への信頼が最低水準

調査対象国の中で、米国は政府のAI規制に対する自国民の信頼度が最下位(31%) でした。

米国の政府AI規制への信頼:    31%(調査国最下位)
AI専門家の楽観的割合:         高い
一般公衆の楽観的割合:         低い・低下傾向

専門家と一般市民がほぼすべての問いで意見が一致しなかった一方、両者が合意した点が2つあります。

  • AIは選挙に悪影響を与える
  • AIは人間関係を悪化させる

Z世代の「怒り」が増大

Gallup が 1,572人(14〜29歳)を対象に行った調査では:

AIに「期待する」Z世代: 36% → 22%(2025→2026年)
AIに「怒りを感じる」Z世代: 22% → 31%(2025→2026年)

AIを最もよく使う世代(Z世代)が、最もAIに対してネガティブな感情を持ち始めているという皮肉な逆転現象です。

安全性対応が能力進歩に追いつかない

レポートは次の構造的問題を指摘しています。

能力向上スピード:   過去最速
安全性研究の進歩:   能力向上に追いついていない
AIインシデント件数: 急増中

投資動向

Q1 2026のVC投資では、AIスタートアップが全世界のVC資金の**80%**を獲得(Crunchbase データ)。スタンフォードのレポートもこの傾向を裏付けており、AI研究への論文数・投資額・特許出願数のいずれも過去最高を更新しています。


開発者が読み取るべきポイント

  1. SWE-bench が 100% でも、本番コードが安全とは限らない — ベンチマークと実務の差は依然大きい
  2. エージェント化は「使う」より「信頼できるか確認する」フェーズ — 企業採用率が一桁なのはそのため
  3. 型安全性・テスト・レビューの重要性は増す — AI生成コードのバグを人間が見抜く仕組みが必要
  4. 中国モデルの選択肢を無視できなくなった — DeepSeek・Qwen はコスト面でも強力な代替になりつつある

参考リンク(Source):

未確認情報の注記: 「Claude Opus 4.6」「Gemini 3.1 Pro」のモデル名は検索結果中に登場したものですが、正式な製品名として確認できていません。ベンチマークスコアの詳細は原典レポートで確認することを推奨します。