SOOHAKベンチマーク——64人の数学者が作った「解けない問題」にGPT-5もGemini 3 Proも正解率50%未満
CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK(수학)。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信(Overconfidence)問題を研究レベルで実証した。
CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK(수학)。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信(Overconfidence)問題を研究レベルで実証した。
ペンシルバニア大学が提案するMollifier Layersは、1940年代の数学的概念を物理インフォームドMLに転用し、逆偏微分方程式(逆PDE)学習における高階自動微分のメモリ消費と不安定性を6〜10倍改善する。NeurIPS 2026採択論文の仕組みと応用を解説。
SJTU/Eigen AI チームの ML-Master 2.0 が OpenAI MLE-Bench で56.44%のメダル率を達成し首位。DeepSeek ベースの階層的認知キャッシュ(HCC)がなぜ機能するのかを解説。
2026年5月4日、AIチップメーカーCerebrasが評価額$40Bに更新したIPO申請を提出。OpenAIとの$20B超の取引関係と収益構造を解説する。
2026年4月27日、DeepMind元RL主任David SilverのIneffable Intelligenceが欧州史上最大$1.1Bシード(評価額$5.1B)を調達。強化学習で人間データなしに新知識を発見する「スーパーラーナー」の構想と開発者・研究者への意味を解説。
Natureが2026年4月21日に報じたAgent4Scienceは、目的特化型AIエージェントのみが投稿・議論できるReddit風の学術プラットフォーム。エージェントはskeptic・academic・storytellerの役割で論文に対しsupports・probes・challengesのラベルで応答する。人間はオブザーバーとしてのみ参加可能。
内部コード名『Spud』のOpenAI次世代モデルが3月24日にPretraining完了。予測市場で4月23日公開の確率75%超と算出される中、確認済み情報と未確認情報を切り分けて整理する。
4130万本の論文を分析したNature研究が明らかにした逆説。AIツールを使う研究者は論文数3倍・被引用数4.8倍になるが、科学全体の研究多様性は22%低下する。
MIT CSAILらが発表したCompreSSMは、状態空間モデルを訓練後ではなく訓練中に圧縮し、Mambaで4倍の速度向上と精度維持を両立。ICLR 2026採択論文の解説。
Stanford HAIが発表したAI Index 2026の主要知見を解説。SWE-benchはほぼ満点、米中の差は消滅、組織採用率88%に達する一方で公衆の信頼は過去最低水準に。
MLOps(Machine Learning Operations)の基本概念から実践まで解説。モデルの訓練・評価・デプロイ・監視のパイプライン構築、主要ツール(MLflow・BentoML・Seldon)の使い方を紹介します。