SJ blog
ai
A

信頼度ランク

S 公式ソース確認済み
A 成功実績多数・失敗例少数
B 賛否両論
C 動作未確認・セキュリティリスク高
Z 個人所感

SOOHAKベンチマーク——64人の数学者が作った「解けない問題」にGPT-5もGemini 3 Proも正解率50%未満

CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK(수학)。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信(Overconfidence)問題を研究レベルで実証した。

一言結論

SOOHAKは解けない問題を「解けない」と見抜けるかを問う99問のRefusalセットを含み、GPT-5もGemini 3 Proも正解率50%未満に留まった。計算量を増やしてもモデルは「解答を拒否する能力」が向上しない——この知見はエージェントが数学的推論を行う場面での信頼性評価に直結する。

何が起きたか

2026年5月、Carnegie Mellon University(CMU)・EleutherAI・ソウル国立大学(SNU)などの研究チームが数学ベンチマーク SOOHAK(수학、韓国語で「数学」)を発表した(arXiv: 2605.09063)。

論文:        "Soohak: A Mathematician-Curated Benchmark for
              Evaluating Research-level Math Capabilities of LLMs"
arXiv:       2605.09063
作成者:      38人の教授、25人のPhD学生・ポスドク、5人のIMOメダリスト(計64人超)
総問題数:    439問
  ├── Challenge セット: 340問(大学院〜研究レベル)
  └── Refusal セット:   99問(意図的に解けない問題)
公開予定:    2026年末(トレーニングデータ汚染防止のため)

SOOHAKの2つのセクション

Challenge セット(340問):研究レベルの数学

代数・解析・位相・数論・確率論など複数分野の大学院・研究レベルの問題が340問含まれる。問題はすべてゼロから手書きで作成されており、既存の教科書・競技数学問題集との重複を排除している。

問題の特徴:
  ✅ 38人の教授が直接執筆・検証
  ✅ IMOメダリスト5名が難易度と正確性を審査
  ✅ 各問題に「正答」と「採点基準」が付属
  ✅ 複数のサブフィールドをカバー(代数・解析・組合せ等)

Refusal セット(99問):「解けない問題」

このセクションがSOOHAKの核心だ。99問は品質管理中に欠陥と判明した問題——矛盾した前提を含む、仮定が欠如している、あるいは解が存在しないことが証明されている——を意図的に収録している。

Refusal セットの評価基準:

✅ 正解(1点): モデルが欠陥を特定し、「なぜ解けないか」を説明する
❌ 不正解(0点): モデルが数値・証明を自信満々に「回答」してしまう

例(イメージ):
  問題: 「連続関数 f: [0,1]→[0,1] で f(f(x)) = -x を満たすものを求めよ」
  ← 実数値関数では不可能(値域の矛盾)
  
  ✅ 正答: 「前提に矛盾があり、そのような関数は実数上に存在しない」
  ❌ 誤答: 「f(x) = ... (具体的な式を自信を持って提示)」

主要モデルの結果

Challenge セット(解ける問題)

最先端モデルはChallenge セットでは着実な進歩を示している。詳細スコアは非公開だが、GPT-5・Gemini 3 Pro・GLM-5が上位に並ぶ。

Refusal セット(解けない問題の見抜き)

ここが問題だ:

Refusal セット(解けない問題を正しく拒否できる割合):

モデル          | 正解率
----------------|--------
GLM-5(最良)   | ~49%(50%未満)
GPT-5           | 50%未満
Gemini 3 Pro    | 50%未満

ランダム推測    | ~50%

→ トップモデルでもランダム以下、またはランダムと同程度

論文の著者らはこの結果を端的に表現している:

「計算量を増やすとモデルは問題をより上手く解けるようになる。しかし、問題に答えがないことを認める能力は向上しない。」


なぜこれが重要か

エージェントへの直接影響

LLMが数学的推論を行うシステム——コード検証、科学計算補助、財務モデリング——では、**「解けない問題を解けないと言えるか」**が安全性の基準になる。

リスクシナリオ:

数学的エージェントが「解けない問題」を受け取った場合:

❌ 現状の振る舞い(確率50%以上):
   → 矛盾した前提に気づかず「解答」を生成
   → 数値的に妥当に見える誤った結果を出力
   → 下流システムがその結果を正しいと判断して使用

✅ あるべき振る舞い:
   → 「この問題の前提 X は Y と矛盾しています。解が存在しません」
   → 明確な理由とともに回答を拒否

「スケーリングで解決しない」問題の示唆

現在のLLMパラダイムでは「より大きなモデル・より多いトークン=より高い性能」が基本前提だ。しかしSOOHAKの結果は、問題の解不可能性を認識する能力はスケーリングで自然には向上しない可能性を示している。

スケーリングが効く能力:
  ✅ 数学的問題を解く能力
  ✅ 複雑な推論を行う能力
  ✅ コードを生成・デバッグする能力

スケーリングが効かない(かもしれない)能力:
  ❓ 「この問題は解けない」と正しく判断する能力
  ❓ 自分の知識の限界を正確に認識する能力
  ❓ 矛盾した前提に気づき拒否する能力

これはモデルの「過信(Overconfidence)」と「知識限界認識(Calibration)」の問題として、AI安全性コミュニティで長年議論されているテーマに実証的なデータを提供する。


データセットの公開計画と注意点

公開タイムライン:
  現在:           論文のみ公開(arXiv 2605.09063)
  2026年末予定:   完全データセット公開
  理由:           トレーニングデータ汚染防止
                  (公開前にデータが訓練データに混入するリスク回避)

未確認・留意事項:

  • 個々のモデルの具体的なスコア(論文本文の精査が必要)
  • Refusal セットの「正解」判定基準の詳細
  • Challenge セット問題のサンプルは未公開

まとめ・参考リンク

SOOHAKは「AIが数学を解けるか」という問いの次に「AIが数学を解けないと認識できるか」を問う初の大規模ベンチマークだ。最先端モデルでも正解率が事実上ランダムに留まるという結果は、エージェントシステムの信頼性設計において「LLMの回答を無条件に信頼しない」アーキテクチャの必要性を改めて示す。

出典・参考リンク

未確認事項: 各モデルの正確なスコアは論文本文の精査が必要。上記の「50%未満」という数値は複数のメディア報道に基づいており、論文に記載の正確値とは差異がある可能性がある。