SJ blog
← タグ一覧

#benchmark (7 件)

ai

SOOHAKベンチマーク——64人の数学者が作った「解けない問題」にGPT-5もGemini 3 Proも正解率50%未満

CMU・EleutherAI・ソウル大学などの64人の数学者が作成した研究レベル数学ベンチマークSOOHAK(수학)。99問の「意図的に解けない問題」セクションで最良モデルでも正解率50%未満という、LLMの過信(Overconfidence)問題を研究レベルで実証した。

ai

Sakana AI「Conductor」——7BモデルがGPT-5・Claude Sonnet 4・Gemini 2.5 Proを指揮してSOTAを超える仕組み

Sakana AIがICLR 2026で発表した7BのConductorモデルは、強化学習でGPT-5・Claude Sonnet 4・Gemini 2.5 Proを動的にオーケストレーションしGPQA-Diamond 87.5%・LiveCodeBench 83.93%を達成。商用製品Fugu(ベータ)の技術的仕組みを解説。

ai

DeepSeek V4プレビューリリース——MIT Licenseで1Tパラメータ・1Mコンテキスト、Claude比7倍安のコスト構造がAIアプリ開発を変える

DeepSeekが2026年4月24日にV4-ProとV4-Flashをプレビューリリース。MIT License、1Mトークンコンテキスト、SWE-bench 80.6%でフロンティアモデルに肉薄しながら出力コストはClaude Opus 4.6の約7分の1。AI組み込みアプリを構築する開発者が今すぐ検討すべき理由を解説。