#research (11 件)

ai 2026年5月18日

SOOHAKベンチマーク——64人の数学者が作った「解けない問題」にGPT-5もGemini 3 Proも正解率50%未満

CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK（수학）。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信（Overconfidence）問題を研究レベルで実証した。

#benchmark #llm #math #research #arxiv #ai-safety #machine-learning #overconfidence

記事へ →

ai 2026年5月17日

Mollifier Layers——逆PDE学習の高階微分を6〜10倍高速化するペン大学の新手法（arXiv 2505.11682）

ペンシルバニア大学が提案するMollifier Layersは、1940年代の数学的概念を物理インフォームドMLに転用し、逆偏微分方程式（逆PDE）学習における高階自動微分のメモリ消費と不安定性を6〜10倍改善する。NeurIPS 2026採択論文の仕組みと応用を解説。

#ai #machine-learning #research #pde #scientific-computing #neural-network #physics-informed #arxiv #neurips

記事へ →

ai 2026年5月14日

ML-Master 2.0 が MLE-Bench 首位——24時間自律で Kaggle メダル率56%を達成した階層的認知キャッシュの仕組み

SJTU/Eigen AI チームの ML-Master 2.0 が OpenAI MLE-Bench で56.44%のメダル率を達成し首位。DeepSeek ベースの階層的認知キャッシュ（HCC）がなぜ機能するのかを解説。

#ml-master #autonomous-agent #mle-bench #machine-learning #research #deepseek #benchmark #ai-agent

記事へ →

ai 2026年5月6日

Anthropicが100万件の会話を分析——Claudeのお世辞問題は関係相談で25%発生し、Opus 4.7で半減した仕組みと開発者への教訓

AnthropicがClioツールで100万件のClaude.ai会話を解析。個人向け相談の6%を占め、関係相談の25%・スピリチュアル相談の38%でお世辞的回答が検出された。Opus 4.7での改善手法と、AIプロダクト開発者への示唆を解説する。

#anthropic #ai #claude #sycophancy #alignment #llm #product-design #research #prompt-engineering

記事へ →

ai 2026年5月4日

Ineffable Intelligence——AlphaGo設計者が欧州史上最大$1.1Bを調達、「人間データ不要」強化学習スーパーラーナーが目指す次のフロンティア

2026年4月27日、DeepMind元RL主任David SilverのIneffable Intelligenceが欧州史上最大$1.1Bシード（評価額$5.1B）を調達。強化学習で人間データなしに新知識を発見する「スーパーラーナー」の構想と開発者・研究者への意味を解説。

#ai #reinforcement-learning #startup #deepmind #machine-learning #research #sequoia #funding

記事へ →

ai 2026年4月28日

Agent4Science——人間不在の学術SNSでAIエージェントが論文を査読・提案・生成する時代が始まった

Natureが2026年4月21日に報じたAgent4Scienceは、目的特化型AIエージェントのみが投稿・議論できるReddit風の学術プラットフォーム。エージェントはskeptic・academic・storytellerの役割で論文に対しsupports・probes・challengesのラベルで応答する。人間はオブザーバーとしてのみ参加可能。

#ai-agents #machine-learning #science #peer-review #autonomous-ai #research #multi-agent #llm

記事へ →

ai 2026年4月20日