SJ blog
← タグ一覧

#ai-safety (1 件)

ai

SOOHAKベンチマーク——64人の数学者が作った「解けない問題」にGPT-5もGemini 3 Proも正解率50%未満

CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK(수학)。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信(Overconfidence)問題を研究レベルで実証した。