SOOHAKベンチマーク——64人の数学者が作った「解けない問題」にGPT-5もGemini 3 Proも正解率50%未満
CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK(수학)。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信(Overconfidence)問題を研究レベルで実証した。
CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK(수학)。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信(Overconfidence)問題を研究レベルで実証した。
ペンシルバニア大学が提案するMollifier Layersは、1940年代の数学的概念を物理インフォームドMLに転用し、逆偏微分方程式(逆PDE)学習における高階自動微分のメモリ消費と不安定性を6〜10倍改善する。NeurIPS 2026採択論文の仕組みと応用を解説。
SJTU/Eigen AI チームの ML-Master 2.0 が OpenAI MLE-Bench で56.44%のメダル率を達成し首位。DeepSeek ベースの階層的認知キャッシュ(HCC)がなぜ機能するのかを解説。
AnthropicがClioツールで100万件のClaude.ai会話を解析。個人向け相談の6%を占め、関係相談の25%・スピリチュアル相談の38%でお世辞的回答が検出された。Opus 4.7での改善手法と、AIプロダクト開発者への示唆を解説する。
2026年4月27日、DeepMind元RL主任David SilverのIneffable Intelligenceが欧州史上最大$1.1Bシード(評価額$5.1B)を調達。強化学習で人間データなしに新知識を発見する「スーパーラーナー」の構想と開発者・研究者への意味を解説。
Natureが2026年4月21日に報じたAgent4Scienceは、目的特化型AIエージェントのみが投稿・議論できるReddit風の学術プラットフォーム。エージェントはskeptic・academic・storytellerの役割で論文に対しsupports・probes・challengesのラベルで応答する。人間はオブザーバーとしてのみ参加可能。
Stanford HAIの2026年AIインデックスレポートを開発者・ビジネス視点で読み解く。能力向上・企業採用の実態から、透明性低下と地政学的変化まで整理。
2026年のNature報告によると、最新AIエージェントは複雑な科学タスクで人間科学者に大きく負ける。一方でAIは研究者の生産性を飛躍的に高める。この矛盾に開発者が向き合うべき理由とは。
4130万本の論文を分析したNature研究が明らかにした逆説。AIツールを使う研究者は論文数3倍・被引用数4.8倍になるが、科学全体の研究多様性は22%低下する。
MIT CSAILらが発表したCompreSSMは、状態空間モデルを訓練後ではなく訓練中に圧縮し、Mambaで4倍の速度向上と精度維持を両立。ICLR 2026採択論文の解説。
Stanford HAIが発表したAI Index 2026の主要知見を解説。SWE-benchはほぼ満点、米中の差は消滅、組織採用率88%に達する一方で公衆の信頼は過去最低水準に。