信頼度ランク
| S | 公式ソース確認済み |
| A | 成功実績多数・失敗例少数 |
| B | 賛否両論 |
| C | 動作未確認・セキュリティリスク高 |
| Z | 個人所感 |
SOOHAKベンチマーク——64人の数学者が作った「解けない問題」にGPT-5もGemini 3 Proも正解率50%未満
CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK(수학)。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信(Overconfidence)問題を研究レベルで実証した。
一言結論
SOOHAKは解けない問題を「解けない」と見抜けるかを問う99問のRefusalセットを含み、GPT-5もGemini 3 Proも正解率50%未満に留まった。計算量を増やしてもモデルは「解答を拒否する能力」が向上しない——この知見はエージェントが数学的推論を行う場面での信頼性評価に直結する。
何が起きたか
2026年5月、Carnegie Mellon University(CMU)・EleutherAI・ソウル国立大学(SNU)などの研究チームが数学ベンチマーク SOOHAK(수학、韓国語で「数学」)を発表した(arXiv: 2605.09063)。
論文: "Soohak: A Mathematician-Curated Benchmark for
Evaluating Research-level Math Capabilities of LLMs"
arXiv: 2605.09063
作成者: 38人の教授、25人のPhD学生・ポスドク、5人のIMOメダリスト(計64人超)
総問題数: 439問
├── Challenge セット: 340問(大学院〜研究レベル)
└── Refusal セット: 99問(意図的に解けない問題)
公開予定: 2026年末(トレーニングデータ汚染防止のため)
SOOHAKの2つのセクション
Challenge セット(340問):研究レベルの数学
代数・解析・位相・数論・確率論など複数分野の大学院・研究レベルの問題が340問含まれる。問題はすべてゼロから手書きで作成されており、既存の教科書・競技数学問題集との重複を排除している。
問題の特徴:
✅ 38人の教授が直接執筆・検証
✅ IMOメダリスト5名が難易度と正確性を審査
✅ 各問題に「正答」と「採点基準」が付属
✅ 複数のサブフィールドをカバー(代数・解析・組合せ等)
Refusal セット(99問):「解けない問題」
このセクションがSOOHAKの核心だ。99問は品質管理中に欠陥と判明した問題——矛盾した前提を含む、仮定が欠如している、あるいは解が存在しないことが証明されている——を意図的に収録している。
Refusal セットの評価基準:
✅ 正解(1点): モデルが欠陥を特定し、「なぜ解けないか」を説明する
❌ 不正解(0点): モデルが数値・証明を自信満々に「回答」してしまう
例(イメージ):
問題: 「連続関数 f: [0,1]→[0,1] で f(f(x)) = -x を満たすものを求めよ」
← 実数値関数では不可能(値域の矛盾)
✅ 正答: 「前提に矛盾があり、そのような関数は実数上に存在しない」
❌ 誤答: 「f(x) = ... (具体的な式を自信を持って提示)」
主要モデルの結果
Challenge セット(解ける問題)
最先端モデルはChallenge セットでは着実な進歩を示している。詳細スコアは非公開だが、GPT-5・Gemini 3 Pro・GLM-5が上位に並ぶ。
Refusal セット(解けない問題の見抜き)
ここが問題だ:
Refusal セット(解けない問題を正しく拒否できる割合):
モデル | 正解率
----------------|--------
GLM-5(最良) | ~49%(50%未満)
GPT-5 | 50%未満
Gemini 3 Pro | 50%未満
ランダム推測 | ~50%
→ トップモデルでもランダム以下、またはランダムと同程度
論文の著者らはこの結果を端的に表現している:
「計算量を増やすとモデルは問題をより上手く解けるようになる。しかし、問題に答えがないことを認める能力は向上しない。」
なぜこれが重要か
エージェントへの直接影響
LLMが数学的推論を行うシステム——コード検証、科学計算補助、財務モデリング——では、**「解けない問題を解けないと言えるか」**が安全性の基準になる。
リスクシナリオ:
数学的エージェントが「解けない問題」を受け取った場合:
❌ 現状の振る舞い(確率50%以上):
→ 矛盾した前提に気づかず「解答」を生成
→ 数値的に妥当に見える誤った結果を出力
→ 下流システムがその結果を正しいと判断して使用
✅ あるべき振る舞い:
→ 「この問題の前提 X は Y と矛盾しています。解が存在しません」
→ 明確な理由とともに回答を拒否
「スケーリングで解決しない」問題の示唆
現在のLLMパラダイムでは「より大きなモデル・より多いトークン=より高い性能」が基本前提だ。しかしSOOHAKの結果は、問題の解不可能性を認識する能力はスケーリングで自然には向上しない可能性を示している。
スケーリングが効く能力:
✅ 数学的問題を解く能力
✅ 複雑な推論を行う能力
✅ コードを生成・デバッグする能力
スケーリングが効かない(かもしれない)能力:
❓ 「この問題は解けない」と正しく判断する能力
❓ 自分の知識の限界を正確に認識する能力
❓ 矛盾した前提に気づき拒否する能力
これはモデルの「過信(Overconfidence)」と「知識限界認識(Calibration)」の問題として、AI安全性コミュニティで長年議論されているテーマに実証的なデータを提供する。
データセットの公開計画と注意点
公開タイムライン:
現在: 論文のみ公開(arXiv 2605.09063)
2026年末予定: 完全データセット公開
理由: トレーニングデータ汚染防止
(公開前にデータが訓練データに混入するリスク回避)
未確認・留意事項:
- 個々のモデルの具体的なスコア(論文本文の精査が必要)
- Refusal セットの「正解」判定基準の詳細
- Challenge セット問題のサンプルは未公開
まとめ・参考リンク
SOOHAKは「AIが数学を解けるか」という問いの次に「AIが数学を解けないと認識できるか」を問う初の大規模ベンチマークだ。最先端モデルでも正解率が事実上ランダムに留まるという結果は、エージェントシステムの信頼性設計において「LLMの回答を無条件に信頼しない」アーキテクチャの必要性を改めて示す。
出典・参考リンク
- arXiv: 2605.09063 — Soohak benchmark paper
- The Decoder: New math benchmark reveals AI models confidently solve problems that have no solution
- Reddit r/MachineLearning — SOOHAK benchmark discussion
未確認事項: 各モデルの正確なスコアは論文本文の精査が必要。上記の「50%未満」という数値は複数のメディア報道に基づいており、論文に記載の正確値とは差異がある可能性がある。