Stanford AI Index 2026 — 急進する性能、拡大する信頼格差、止まらない投資

Stanford AI Index とは

スタンフォード大学人間中心AI研究所（HAI）が毎年発表する「AI Index Report」は、AI開発の現状を多角的に計測する最も信頼性の高い年次報告書のひとつです。2026年版は2026年4月13日に公開されました。

今回のレポートは「かつてないほどの能力向上」と「深刻な信頼の危機」という相反する現実を同時に記録しています。

ソフトウェアエンジニアリング能力を測る代表的ベンチマーク「SWE-bench Verified」でのスコアは、1年で劇的に変化しました。

2025年初頭: 約 60%
2026年4月現在: 100% に近い水準

これはAIがGitHub Issues のバグ修正タスクをほぼ確実に解けるレベルに到達したことを示します。

人類の知識の限界を試す「Humanity’s Last Exam」（PhD レベルの難問集）でも驚異的な成長が見られます。

2025年初頭 (OpenAI o1): 8.8%
2026年4月 (Claude Opus 4.6、Gemini 3.1 Pro 等): 50% 超

ただしこれは「難問の半分しか解けない」ということでもあります。

最高性能のモデルでも、タスクによって能力が極端に異なる現象が続いています。

Nature誌が報告したように、「AIエージェントは複雑な科学タスクで人間の科学者に大差で負ける」という結果が出ており、強さと弱さが隣り合わせの状態です。

2024年までは「米国のAIモデルが中国を大きく上回る」という構図でしたが、2026年のレポートはこれを大きく修正しています。

2024年:  米国モデルが主要ベンチマークで圧倒
2025年:  格差が急速に縮小
2026年:  米国と中国のモデルが主要ベンチマークの首位を交互に占める

DeepSeek、Qwen（Alibaba）、Kimi（Moonshot AI）などの中国モデルが複数のベンチマークでトップクラスに到達しています。

組織レベルのAI採用率:    88%（過去最高）
大学生のGenAI利用率:     4人中4人に近い（81%）
世界人口のGenAI利用率:   53%（PCやインターネット普及より速いペース）

カスタマーサポート:   14〜26% の生産性向上
ソフトウェア開発:    14〜26% の生産性向上
マーケティング:      最大 72% の生産性向上

AIエージェント（自律的にタスクを実行するAI）の実業務での活用は、ほぼすべての部門でまだ**一桁台（%）**にとどまっています。ツールとして生成AIを「使う」ことと、プロセスに自律エージェントを「組み込む」ことは別次元の話です。

調査対象国の中で、米国は政府のAI規制に対する自国民の信頼度が最下位（31%） でした。

米国の政府AI規制への信頼:    31%（調査国最下位）
AI専門家の楽観的割合:         高い
一般公衆の楽観的割合:         低い・低下傾向

専門家と一般市民がほぼすべての問いで意見が一致しなかった一方、両者が合意した点が2つあります。

Gallup が 1,572人（14〜29歳）を対象に行った調査では：

AIに「期待する」Z世代: 36% → 22%（2025→2026年）
AIに「怒りを感じる」Z世代: 22% → 31%（2025→2026年）

AIを最もよく使う世代（Z世代）が、最もAIに対してネガティブな感情を持ち始めているという皮肉な逆転現象です。

レポートは次の構造的問題を指摘しています。

能力向上スピード:   過去最速
安全性研究の進歩:   能力向上に追いついていない
AIインシデント件数: 急増中

Q1 2026のVC投資では、AIスタートアップが全世界のVC資金の**80%**を獲得（Crunchbase データ）。スタンフォードのレポートもこの傾向を裏付けており、AI研究への論文数・投資額・特許出願数のいずれも過去最高を更新しています。

参考リンク（Source）:

未確認情報の注記: 「Claude Opus 4.6」「Gemini 3.1 Pro」のモデル名は検索結果中に登場したものですが、正式な製品名として確認できていません。ベンチマークスコアの詳細は原典レポートで確認することを推奨します。