SJ blog
ai
B

信頼度ランク

S 公式ソース確認済み
A 成功実績多数・失敗例少数
B 賛否両論
C 動作未確認・セキュリティリスク高
Z 個人所感

ML-Master 2.0 が MLE-Bench 首位——24時間自律で Kaggle メダル率56%を達成した階層的認知キャッシュの仕組み

SJTU/Eigen AI チームの ML-Master 2.0 が OpenAI MLE-Bench で56.44%のメダル率を達成し首位。DeepSeek ベースの階層的認知キャッシュ(HCC)がなぜ機能するのかを解説。

一言結論

ML-Master 2.0 は DeepSeek ベースのオープンソース ML エンジニアリングエージェントで、MLE-Bench の24時間バジェットで56.44%のメダル率(SOTA)を達成。従来のLLMエージェントが苦手だった「長期コンテキスト崩壊」を階層的認知キャッシュ(HCC)で解決し、Kaggle 上位50%の人間を63.1%のタスクで超えた。

何が起きたか

上海交通大学(SJTU)と Eigen AI の研究チームが ML-Master 2.0 を発表した。

ML-Master 2.0 は MLE(Machine Learning Engineering)タスクを24時間自律で遂行するエージェントで、OpenAIが管理する公開リーダーボード MLE-Bench で56.44%のメダル率を記録し、2026年5月時点でトップの座についている。

ML-Master 2.0 基本情報:
  開発元:    上海交通大学 SJTU-SAI-Agents × Eigen AI(SciMaster チーム)
  ベースLLM: DeepSeek(オープンソース)
  評価基準:  OpenAI MLE-Bench(Kaggle 競技の自動化評価)
  メダル率:  56.44%(全難易度平均)
  前バージョン比: +92.7%(ML-Master 1.0 との比較)
  コード:    github.com/sjtu-sai-agents/ML-Master

MLE-Bench とは何か

ML-Master 2.0 の成果を理解するには、評価基準である MLE-Bench の仕組みを知る必要がある。

MLE-Bench の構造:
  - OpenAI が管理する Kaggle 競技タスクの自動評価基盤
  - エージェントに「Kaggle コンペ形式のタスク」を与える
  - タスク例: 画像分類・表データ予測・異常検知・NLP等
  - 評価指標: 提出スコアが Kaggle の金・銀・銅メダル基準を
              超えたかどうか(メダル率)
  - 時間制限: 24時間バジェット(エージェントの自律実行時間)

難易度分類:
  Low    (低): 75.8% メダル率
  Medium (中): 50.9% メダル率
  High   (高): 42.2% メダル率
  全体平均:       56.44% メダル率(SOTA)

比較:
  人間の Kaggle 参加者上位50%: ML-Master 2.0が63.1%のタスクで上回る
  有効提出率:                  95.6%(エラーなく完走したタスクの割合)
  ML-Master 1.0:               29.4%(→ 2.0で56.44%、+92.7%)

核心技術:階層的認知キャッシュ(HCC)

従来エージェントの問題

従来のLLMエージェントが長時間タスクで失敗する理由は、コンテキストの管理にある。

典型的な問題パターン(ML-Master 1.0 含む):

実行時間:0〜2時間
  → 問題理解・初回実装・テストが順調
  
実行時間:2〜8時間
  → 試行錯誤の経緯がコンテキストを占領し始める
  → 「前回なぜこのアプローチを変えたか」が消える
  → 同じ失敗を繰り返すループに陥る

実行時間:8〜24時間
  → コンテキストが 200K トークンを超え始める
  → モデルが「何を達成しようとしているのか」を見失う
  → 最終提出がランダムに近い品質になる

HCC の解決アプローチ

ML-Master 2.0 はコンテキストを3層に分割して管理する。

階層的認知キャッシュ(HCC)の3層構造:

レイヤー 1: 作業記憶(Working Memory)
  役割:   現在の試行錯誤の詳細ステップ
  内容:   直近10〜20ステップの実行ログ
  更新:   毎ステップ(スライディングウィンドウ)
  サイズ: ~10K トークン

レイヤー 2: 中期記憶(Mid-term Memory)
  役割:   「このアプローチはなぜ失敗したか」の要約
  内容:   失敗した仮説・その原因・得られた洞察
  更新:   試行が完了するたびに蒸留・圧縮
  サイズ: ~30K トークン

レイヤー 3: 長期戦略(Long-term Strategy)
  役割:   タスク全体の戦略・制約・達成済みマイルストーン
  内容:   問題定義・評価指標・有望なアプローチの優先順位
  更新:   重要な発見があった時のみ
  サイズ: ~30K トークン

効果:
  コンテキスト長 200K+ → 約 70K に削減(維持しつつ)
  「なぜこのアプローチを選んだか」が常にアクセス可能

蒸留プロセス

HCC の蒸留フロー(試行完了ごとに実行):

1. 試行ログ(作業記憶)を分析
   → 「どのハイパーパラメータを試したか」
   → 「どのエラーが出たか」
   → 「スコアはいくつだったか」

2. 学習された洞察を中期記憶へ蒸留
   → "バッチサイズ 32 では過学習 → 16 に変更"
   → "EfficientNet-B5 は B7 より 3% 低スコア"
   → これを圧縮した要約として保存

3. 長期戦略の更新判断
   → 洞察が戦略を変えるレベル(例: ベースラインモデルの変更)
     なら長期戦略も更新
   → 細かい調整なら中期記憶のみ更新

ML-Master 2.0 が採用する探索戦略

HCC に加えて、ML-Master 2.0 は2つの探索モードを使い分ける。

探索モード:

モード A: 収束型探索(Exploitation)
  適用場面: 現在のアプローチが有望な場合
  動作:    ハイパーパラメータの精緻化・アンサンブル
  例:      LightGBM が 0.87 AUC → XGBoost と平均を試す

モード B: 発散型探索(Exploration)
  適用場面: スコアが頭打ちになった場合
  動作:    完全に異なるモデルアーキテクチャへの切り替え
  例:      勾配ブースティング系 → ニューラルネットに転換

切り替えトリガー:
  - 直近3回の試行でスコア改善が < 0.001 → 発散型に切り替え
  - 新アプローチで有意改善 → 収束型に戻る

MLE-Bench の難易度別結果と限界

ML-Master 2.0 の詳細結果:

難易度 Low  : 75.8% メダル率
  → 標準的な表データ分類・回帰タスク
  → 人間の Kaggle 参加者の上位25%と同等以上

難易度 Medium: 50.9% メダル率
  → 画像分類・NLP・時系列タスク
  → 人間の上位40〜50%と同等

難易度 High  : 42.2% メダル率
  → 創造的なデータ前処理・独自アーキテクチャが必要なタスク
  → 人間の上位40%には及ばない

弱点が現れるパターン:
  ❌ ドメイン固有の前知識が必要なタスク
     (医療画像の特殊な前処理手法等)
  ❌ タスク説明が曖昧で意図を読み取る必要がある場合
  ❌ 24時間では解けないほど計算リソースが必要なタスク
  ❌ カスタムデータ収集が必要なタスク(MLE-Bench外)

開発者・ML エンジニアへの実践的示唆

今すぐ使える用途

実用的な使い方(今日から可能):

1. Kaggle 競技のベースライン生成
   → 新しいコンペに参加する際の初手として
   → 手動で EDA → 前処理 → ベースライン を書く工数を削減

2. ハイパーパラメータ探索の自動化
   → Optuna/Hyperopt の設定さえ書ければ後は自律
   → ML-Master 2.0 はこの部分が特に強い

3. アンサンブル候補の探索
   → 複数モデルの組み合わせを自動的に試す

実行コスト(参考):
  DeepSeek V3 ベース: 24時間バジェットで
  約 $15〜50(タスク複雑度による推定)

組み込みへの注意点

# ML-Master 2.0 を自前環境で動かす(概念的な例)
from ml_master import MLMasterAgent

agent = MLMasterAgent(
    model="deepseek-v3",  # または deepseek-r1
    hcc_config={
        "working_memory_tokens": 10000,
        "mid_term_memory_tokens": 30000,
        "long_term_strategy_tokens": 30000,
    },
    time_budget_hours=24,
    exploration_threshold=0.001,  # スコア改善がこれ未満なら発散探索へ
)

result = agent.run(
    task_description="Titanic データセットで生存予測モデルを構築。"
                     "評価指標: Accuracy。テストデータでの予測CSVを提出。",
    dataset_path="./data/",
    submission_format="./sample_submission.csv"
)

print(f"最高スコア: {result.best_score}")
print(f"採用アプローチ: {result.winning_approach}")
print(f"試行回数: {result.total_attempts}")

オープンソースとしての重要性

ML-Master 2.0 が注目される理由のひとつは DeepSeek ベースのオープンソース であることだ。

既存の競合との比較:

MLAgentBench(Google/Meta):
  → クローズドモデル依存が多い
  → 再現性が低い

AIDE(Anthropic系):
  → 優秀だが Claude API 必須

ML-Master 2.0:
  → DeepSeek V3/R1(オープンウェイト)で動作
  → 完全なコード・評価スクリプトが公開
  → GPUが確保できれば完全ローカル実行も可能
  → 商用利用の制約が比較的緩い(DeepSeekライセンス確認要)

落とし穴・注意点

  • reliability を B とした理由: MLE-Bench での結果は再現性が高いが、実際の業務MLタスク(データが整っていない、評価指標が曖昧)での性能は未検証。Kaggle 形式の「整ったデータ・明確な評価指標」は現実のML業務より条件が良い
  • DeepSeek モデルのデータプライバシー: 中国発のモデルをAPIで使う場合、送信データが学習に使用されるリスクがある。機密データを含むMLタスクには注意。ローカル実行(DeepSeek オープンウェイト)を推奨
  • 計算コストの予測が難しい: 24時間フル稼働で試行を繰り返すため、GPUコスト・LLM APIコストが予想外に膨らむことがある。コスト上限の設定が必要
  • ベンチマーク数値の比較は慎重に: MLE-Bench の構成・バージョンによって他エージェントとの比較が不公平になるケースがある

まとめ・参考リンク

ML-Master 2.0 は「AIエージェントが本格的なMLエンジニアリングをこなせる時代」の始まりを示す研究だ。HCC(階層的認知キャッシュ)による長期コンテキスト管理は、単純なタスク以上の複雑な問題でもエージェントが有効性を維持できることを示した。オープンソース・DeepSeek ベースで完全再現可能な点も重要で、MLチームが自前でカスタマイズして使える実装が公開されている。

参考リンク:

注意事項: ML-Master 2.0 のメダル率数値(56.44%)は公式論文・発表に基づくが、MLE-Bench のバージョン・タスクセット構成によって他研究との単純比較が困難な場合がある。「人間の上位50%を超える」という主張はMLE-Bench の参加者ベースラインとの比較であり、トップKagglerとの比較ではない。ローカル実行時の DeepSeek モデルのライセンスは利用前に必ず確認すること。