SOOHAKベンチマーク——64人の数学者が作った「解けない問題」にGPT-5もGemini 3 Proも正解率50%未満
CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK(수학)。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信(Overconfidence)問題を研究レベルで実証した。
CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK(수학)。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信(Overconfidence)問題を研究レベルで実証した。
ペンシルバニア大学が提案するMollifier Layersは、1940年代の数学的概念を物理インフォームドMLに転用し、逆偏微分方程式(逆PDE)学習における高階自動微分のメモリ消費と不安定性を6〜10倍改善する。NeurIPS 2026採択論文の仕組みと応用を解説。