← タグ一覧

#arxiv (2 件)

ai 2026年5月18日

SOOHAKベンチマーク——64人の数学者が作った「解けない問題」にGPT-5もGemini 3 Proも正解率50%未満

CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK（수학）。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信（Overconfidence）問題を研究レベルで実証した。

#benchmark #llm #math #research #arxiv #ai-safety #machine-learning #overconfidence

ai 2026年5月17日

Mollifier Layers——逆PDE学習の高階微分を6〜10倍高速化するペン大学の新手法（arXiv 2505.11682）

ペンシルバニア大学が提案するMollifier Layersは、1940年代の数学的概念を物理インフォームドMLに転用し、逆偏微分方程式（逆PDE）学習における高階自動微分のメモリ消費と不安定性を6〜10倍改善する。NeurIPS 2026採択論文の仕組みと応用を解説。

#ai #machine-learning #research #pde #scientific-computing #neural-network #physics-informed #arxiv #neurips