#benchmark (7 件)

ai 2026年5月18日

SOOHAKベンチマーク——64人の数学者が作った「解けない問題」にGPT-5もGemini 3 Proも正解率50%未満

CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK（수학）。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信（Overconfidence）問題を研究レベルで実証した。

#benchmark #llm #math #research #arxiv #ai-safety #machine-learning #overconfidence

記事へ →

ai 2026年5月16日

Sakana AI「Conductor」——7BモデルがGPT-5・Claude Sonnet 4・Gemini 2.5 Proを指揮してSOTAを超える仕組み

Sakana AIがICLR 2026で発表した7BのConductorモデルは、強化学習でGPT-5・Claude Sonnet 4・Gemini 2.5 Proを動的にオーケストレーションしGPQA-Diamond 87.5%・LiveCodeBench 83.93%を達成。商用製品Fugu（ベータ）の技術的仕組みを解説。

#ai #llm #multi-agent #orchestration #reinforcement-learning #sakana-ai #iclr #gpt-5 #benchmark

記事へ →

ai 2026年5月14日

ML-Master 2.0 が MLE-Bench 首位——24時間自律で Kaggle メダル率56%を達成した階層的認知キャッシュの仕組み

SJTU/Eigen AI チームの ML-Master 2.0 が OpenAI MLE-Bench で56.44%のメダル率を達成し首位。DeepSeek ベースの階層的認知キャッシュ（HCC）がなぜ機能するのかを解説。

#ml-master #autonomous-agent #mle-bench #machine-learning #research #deepseek #benchmark #ai-agent

記事へ →

ai 2026年4月26日

Claude Opus 4.7リリース——SWE-bench 64.3%・xhigh effort・タスクバジェットで強化されたエージェント向けモデル

Anthropicが4月16日にClaude Opus 4.7をリリース。SWE-bench Pro 64.3%（+10.9pt）・xhigh effort設定・タスクバジェットβを導入。新トークナイザーで最大35%コスト増に注意。

#anthropic #claude #llm #api #agentic #benchmark #ai-model

記事へ →

ai 2026年4月25日

DeepSeek V4プレビューリリース——MIT Licenseで1Tパラメータ・1Mコンテキスト、Claude比7倍安のコスト構造がAIアプリ開発を変える

DeepSeekが2026年4月24日にV4-ProとV4-Flashをプレビューリリース。MIT License、1Mトークンコンテキスト、SWE-bench 80.6%でフロンティアモデルに肉薄しながら出力コストはClaude Opus 4.6の約7分の1。AI組み込みアプリを構築する開発者が今すぐ検討すべき理由を解説。

#deepseek #open-source #llm #api #benchmark #mit-license #cost #ai-model

記事へ →

ai 2026年4月24日

GPT-5.5正式リリース——コードネームSpudは4月23日に公開、Terminal-Bench 82.7%・API $5/1Mトークンの実際

OpenAIが4月23日にGPT-5.5をリリース。Terminal-Bench 2.0で82.7%（Claude Opus 4.7比+13.3pt）、API価格は$5/1M入力・$30/1M出力。4月22日の予測記事の続報として実際の数字と開発者への影響を整理。

#openai #gpt-55 #ai-model #agentic #api #benchmark #llm

記事へ →

ai 2026年4月15日

Stanford AI Index 2026 — 急進する性能、拡大する信頼格差、止まらない投資

Stanford HAIが発表したAI Index 2026の主要知見を解説。SWE-benchはほぼ満点、米中の差は消滅、組織採用率88%に達する一方で公衆の信頼は過去最低水準に。

#ai #machine-learning #research #llm #benchmark

記事へ →