SOOHAKベンチマーク——64人の数学者が作った「解けない問題」にGPT-5もGemini 3 Proも正解率50%未満

何が起きたか

2026年5月、Carnegie Mellon University（CMU）・EleutherAI・ソウル国立大学（SNU）などの研究チームが数学ベンチマーク SOOHAK（수학、韓国語で「数学」）を発表した（arXiv: 2605.09063）。

論文:        "Soohak: A Mathematician-Curated Benchmark for
              Evaluating Research-level Math Capabilities of LLMs"
arXiv:       2605.09063
作成者:      38人の教授、25人のPhD学生・ポスドク、5人のIMOメダリスト（計64人超）
総問題数:    439問
  ├── Challenge セット: 340問（大学院〜研究レベル）
  └── Refusal セット:   99問（意図的に解けない問題）
公開予定:    2026年末（トレーニングデータ汚染防止のため）

SOOHAKの2つのセクション

Challenge セット（340問）：研究レベルの数学

代数・解析・位相・数論・確率論など複数分野の大学院・研究レベルの問題が340問含まれる。問題はすべてゼロから手書きで作成されており、既存の教科書・競技数学問題集との重複を排除している。

問題の特徴:
  ✅ 38人の教授が直接執筆・検証
  ✅ IMOメダリスト5名が難易度と正確性を審査
  ✅ 各問題に「正答」と「採点基準」が付属
  ✅ 複数のサブフィールドをカバー（代数・解析・組合せ等）

Refusal セット（99問）：「解けない問題」

このセクションがSOOHAKの核心だ。99問は品質管理中に欠陥と判明した問題——矛盾した前提を含む、仮定が欠如している、あるいは解が存在しないことが証明されている——を意図的に収録している。

Refusal セットの評価基準:

✅ 正解（1点）: モデルが欠陥を特定し、「なぜ解けないか」を説明する
❌ 不正解（0点）: モデルが数値・証明を自信満々に「回答」してしまう

例（イメージ）:
  問題: 「連続関数 f: [0,1]→[0,1] で f(f(x)) = -x を満たすものを求めよ」
  ← 実数値関数では不可能（値域の矛盾）
  
  ✅ 正答: 「前提に矛盾があり、そのような関数は実数上に存在しない」
  ❌ 誤答: 「f(x) = ... （具体的な式を自信を持って提示）」

主要モデルの結果

Challenge セット（解ける問題）

最先端モデルはChallenge セットでは着実な進歩を示している。詳細スコアは非公開だが、GPT-5・Gemini 3 Pro・GLM-5が上位に並ぶ。

Refusal セット（解けない問題の見抜き）

ここが問題だ：

Refusal セット（解けない問題を正しく拒否できる割合）:

モデル          | 正解率
----------------|--------
GLM-5（最良）   | ~49%（50%未満）
GPT-5           | 50%未満
Gemini 3 Pro    | 50%未満

ランダム推測    | ~50%

→ トップモデルでもランダム以下、またはランダムと同程度

論文の著者らはこの結果を端的に表現している：

「計算量を増やすとモデルは問題をより上手く解けるようになる。しかし、問題に答えがないことを認める能力は向上しない。」

なぜこれが重要か

エージェントへの直接影響

LLMが数学的推論を行うシステム——コード検証、科学計算補助、財務モデリング——では、**「解けない問題を解けないと言えるか」**が安全性の基準になる。

リスクシナリオ:

数学的エージェントが「解けない問題」を受け取った場合:

❌ 現状の振る舞い（確率50%以上）:
   → 矛盾した前提に気づかず「解答」を生成
   → 数値的に妥当に見える誤った結果を出力
   → 下流システムがその結果を正しいと判断して使用

✅ あるべき振る舞い:
   → 「この問題の前提 X は Y と矛盾しています。解が存在しません」
   → 明確な理由とともに回答を拒否

「スケーリングで解決しない」問題の示唆

現在のLLMパラダイムでは「より大きなモデル・より多いトークン＝より高い性能」が基本前提だ。しかしSOOHAKの結果は、問題の解不可能性を認識する能力はスケーリングで自然には向上しない可能性を示している。

スケーリングが効く能力:
  ✅ 数学的問題を解く能力
  ✅ 複雑な推論を行う能力
  ✅ コードを生成・デバッグする能力

スケーリングが効かない（かもしれない）能力:
  ❓ 「この問題は解けない」と正しく判断する能力
  ❓ 自分の知識の限界を正確に認識する能力
  ❓ 矛盾した前提に気づき拒否する能力

これはモデルの「過信（Overconfidence）」と「知識限界認識（Calibration）」の問題として、AI安全性コミュニティで長年議論されているテーマに実証的なデータを提供する。

データセットの公開計画と注意点

公開タイムライン:
  現在:           論文のみ公開（arXiv 2605.09063）
  2026年末予定:   完全データセット公開
  理由:           トレーニングデータ汚染防止
                  （公開前にデータが訓練データに混入するリスク回避）

未確認・留意事項：

個々のモデルの具体的なスコア（論文本文の精査が必要）
Refusal セットの「正解」判定基準の詳細
Challenge セット問題のサンプルは未公開

まとめ・参考リンク

SOOHAKは「AIが数学を解けるか」という問いの次に「AIが数学を解けないと認識できるか」を問う初の大規模ベンチマークだ。最先端モデルでも正解率が事実上ランダムに留まるという結果は、エージェントシステムの信頼性設計において「LLMの回答を無条件に信頼しない」アーキテクチャの必要性を改めて示す。

出典・参考リンク

未確認事項: 各モデルの正確なスコアは論文本文の精査が必要。上記の「50%未満」という数値は複数のメディア報道に基づいており、論文に記載の正確値とは差異がある可能性がある。

S	公式ソース確認済み
A	成功実績多数・失敗例少数
B	賛否両論
C	動作未確認・セキュリティリスク高
Z	個人所感