#ai-safety | SJ blog

ai 2026年5月18日

CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK（수학）。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信（Overconfidence）問題を研究レベルで実証した。

#ai-safety (1 件)