Sakana AI「Conductor」——7BモデルがGPT-5・Claude Sonnet 4・Gemini 2.5 Proを指揮してSOTAを超える仕組み

何が起きたか

2026年4月27日、Sakana AI が論文「Learning to Orchestrate Agents in Natural Language with the Conductor」を公開し、ICLR 2026（国際学習表現会議）に採択された。

Conductor 基本情報:
  論文公開日:   2026年4月27日
  採択:         ICLR 2026（機械学習トップ国際会議）
  ベースモデル: Qwen2.5-7B（7B パラメータ）
  訓練手法:     GRPO（Group Relative Policy Optimization）
  訓練データ:   960 問（MATH・MMLU・RLPR・LiveCodeBench から抽出）
  訓練ハード:   NVIDIA H100 80GB × 2台（研究室レベルの計算量）
  商用製品:     Fugu（OpenAI 互換 API、ベータ公開中）

HN スレッド: Learning to Orchestrate Agents in Natural Language - Hacker News

「Conductor」の基本アイデア

従来のマルチエージェント設計では、人間がどのタスクをどのモデルに渡すかをハードコードするか、ルールベースで決める。Conductor はこのルール設計を強化学習でモデル自身に学ばせる。

❌ 従来のマルチエージェントパイプライン:
  タスク → [ルール: 数学はGPT-5、コードはClaudeへ] → 実行
  問題: ルールは静的。タスク固有の最適配分がわからない

✅ Conductor:
  タスク → [Conductor: RL で学んだ動的配分] → 複数エージェントへ委譲 → 集約
  利点: 問題を見て「どの組み合わせが最善か」を推論

Conductor は2つのことを同時に学習する：

コミュニケーションプロトコルの設計: どのエージェントに何を伝えるか
タスクの配分: どのワーカーに何を依頼するか

技術的な仕組み

GRPO による強化学習

# Conductor の学習ループ（概念的な擬似コード）

for iteration in range(200):  # 200 イテレーション
    # 1. Conductor が現在の方策でオーケストレーション計画を生成
    orchestration_plans = conductor.sample(
        questions=batch_of_960_problems,
        n_rollouts=64  # 64 通りの計画を試す
    )
    
    # 2. 計画に従ってワーカーLLM（GPT-5/Claude/Gemini）を実行
    results = execute_plans(orchestration_plans, worker_pool)
    
    # 3. 正解率をベースにした報酬を計算
    rewards = evaluate(results, ground_truth)
    
    # 4. GRPO で方策を更新（高報酬の計画を強化）
    conductor.update_policy(plans=orchestration_plans, rewards=rewards)

重要なのは、ワーカー LLM（GPT-5・Claude Sonnet 4・Gemini 2.5 Pro）のパラメータは固定されており、Conductor の 7B モデルのみが更新される点だ。

ワーカープール

Conductor が指揮するワーカー（固定、学習中も推論中も変更なし）:
  - GPT-5
  - Claude Sonnet 4
  - Gemini 2.5 Pro

Conductor 自身は:
  - 問題を「解かない」
  - タスクを分析し、どのワーカーに何を依頼するかを「決める」
  - ワーカーの返答を集約して最終回答を構成する

ベンチマーク結果

ベンチマーク	Conductor	GPT-5 単体	Claude Sonnet 4 単体	改善幅
GPQA-Diamond	87.5%	~84%	~84%	+3%
LiveCodeBench	83.93%	~81%	~81%	+3%
AIME25	93.3%	~90%	~90%	+3%
全タスク平均	77.27%	< 77%	< 77%	SOTA

論文では「~3% の改善は o3 → GPT-5 世代間の向上に相当する」と主張しており、1 世代分の進化に相当する性能向上を得たと言える。

注: 個々のフロンティアモデルの具体的スコアは論文内の集計値から逆算したもの。各社の公式スコアとは異なる場合がある。

訓練コストの衝撃

最も注目すべきは計算コストの圧倒的な低さだ。

Conductor の訓練コスト:
  ハードウェア: NVIDIA H100 80GB × 2台
  訓練時間:     約 12 時間（推定）
  訓練データ:   960 問のみ

比較:
  GPT-5 の訓練: 数万〜数十万枚の GPU × 数ヶ月
  Conductor:    2枚の H100 × 数時間

つまり:
  「高価なモデルを作る」のではなく、
  「既存の高価なモデルをうまく使う方法を学習する」

これは「フロンティアモデルを自ら作れないが、賢く組み合わせたい」組織（スタートアップ・研究機関・中堅企業）にとって重要な示唆だ。

商用製品：Fugu

Conductor の技術は Fugu（フグ）という商用マルチエージェント基盤として提供されている。

Fugu の特徴:
  API 形式:   OpenAI 互換 API（/v1/chat/completions と同形式）
  内部動作:   Conductor が動的にワーカーを選択・実行
  ユーザー視点: 通常の LLM API 呼び出しと変わらない
  現況:        ベータ（要登録）

コード例（Fugu を OpenAI クライアントで呼ぶ）:

from openai import OpenAI

client = OpenAI(
    api_key="fugu-api-key",
    base_url="https://api.fugu.sakana.ai/v1"  # 仮のエンドポイント
)

response = client.chat.completions.create(
    model="fugu-conductor",  # Conductor が自動でワーカーを選択
    messages=[
        {"role": "user", "content": "二分探索木の最小共通祖先を求めるアルゴリズムを実装してください"}
    ]
)

# 内部では: Conductor → [LiveCodeBench 苦手判断 → Claude Sonnet 4 に委譲] → 集約
print(response.choices[0].message.content)

開発者への示唆

Conductor が示した設計原則:

1. 「タスクルーティング」はモデルが学べる
   → 人間がルールを書かなくても、RLで最適な配分を学習できる

2. 7B で 100B+ を指揮できる
   → オーケストレーター自体に高い知能は不要。必要なのは「判断力」

3. フロンティアモデルは「ツール」として使える
   → APIで使えるモデルを複数持てば、それ自体が強力なエージェント基盤になる

4. 低コストで改善できる余地がまだある
   → 最先端モデル単体での能力向上とは別の次元でSOTAを更新できる

落とし穴・注意点

ワーカー API コストが大きい: Conductor は 7B で安いが、GPT-5・Claude Sonnet 4・Gemini 2.5 Pro を複数回呼ぶと実行コストは高くなる。コスト試算なしに本番利用は危険
レイテンシが高い: 複数のフロンティアモデルを直列・並列に呼ぶため、1回の回答に数十秒かかる場合がある。リアルタイム性が求められるユースケースには不適
ベンチマークはクローズドドメイン: 訓練データ（MATH・MMLU 等）と評価データが一部重複している可能性。実際の業務タスクでの効果は検証が必要
Fugu はまだベータ: 本番 SLA・価格体系は未公表

まとめ

Conductor の本質は「フロンティアモデルの能力自体を上げる」ではなく「既存のフロンティアモデルをどう組み合わせるかを学習する」という新しいアプローチだ。H100×2台・12時間という現実的なコストで 1 世代分の性能向上を得られた事実は、大規模訓練を持たない組織にも「SOTA を追いかける手段」があることを示している。Fugu の OpenAI 互換 API は採用の敷居を下げており、マルチエージェントシステムの設計に悩んでいる開発者に試す価値がある。

参考リンク

免責: ベンチマークスコアは論文・サードパーティ要約に基づく。GPT-5・Claude Sonnet 4・Gemini 2.5 Pro の公式スコアとの差異は文献確認を推奨。Fugu の価格・SLA は 2026年5月時点では未公表。

S	公式ソース確認済み
A	成功実績多数・失敗例少数
B	賛否両論
C	動作未確認・セキュリティリスク高
Z	個人所感