SJ blog
ai
A

信頼度ランク

S 公式ソース確認済み
A 成功実績多数・失敗例少数
B 賛否両論
C 動作未確認・セキュリティリスク高
Z 個人所感

Claude Opus 4.7リリース——SWE-bench 64.3%・xhigh effort・タスクバジェットで強化されたエージェント向けモデル

Anthropicが4月16日にClaude Opus 4.7をリリース。SWE-bench Pro 64.3%(+10.9pt)・xhigh effort設定・タスクバジェットβを導入。新トークナイザーで最大35%コスト増に注意。

一言結論

SWE-bench Pro 64.3%と新xhigh effortがコーディング/エージェント用途で実用的な性能向上をもたらす。一方で新トークナイザーにより最大35%トークン増加があり、既存のコスト計算と予算設定の見直しが必須。

なぜClaude Opus 4.7が重要か

2026年4月16日、AnthropicがClaude Opus 4.7を正式リリースした。Opus 4.6から約3ヶ月ぶりのメジャー更新で、コーディングとエージェントワークフロー向けの性能向上が中心だ。

価格はOpus 4.6と変わらず $5/1M入力・$25/1M出力だが、新しいトークナイザーの導入により同じプロンプトでも最大35%トークン消費が増加する可能性がある。モデルの精度向上と合わせて、実際のコスト変化はワークロード次第だ。

ベンチマーク比較

ベンチマークOpus 4.6Opus 4.7差分
SWE-bench Pro53.4%64.3%+10.9pt
SWE-bench Verified80.8%87.6%+6.8pt
Terminal-Bench 2.069.4%(GPT-5.5は82.7%)

SWE-bench ProはGitHubの実際のissueを解決するコーディングタスクのうち「困難」に分類されるサブセットだ。Opus 4.6とOpus 4.7どちらでもSonnet 4.6では解けなかった4タスクが解けるようになった点が実用上の意味を持つ。

新機能①:xhigh effortレベル

Anthropicのthinking(拡張推論)機能では effort パラメータでモデルの計算深さを制御できる。Opus 4.7で xhigh という新レベルが追加された。

none < low < medium < high < xhigh < max
import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-7-20260416",
    max_tokens=64000,  # xhigh/max使用時は64k以上推奨
    thinking={
        "type": "enabled",
        "effort": "xhigh"  # 新しいレベル:highとmaxの中間
    },
    messages=[{"role": "user", "content": "複雑なアーキテクチャ設計の問題を解いてください"}]
)

Anthropicは「ほとんどのコーディング・エージェント用途では xhigh から始めることを推奨」としている。max は最高精度が求められるが計算コストが高いケース向けだ。

注意点xhigh または max を使用する場合、max_tokens を最低64,000以上に設定することが推奨される。デフォルト値のままでは生成が途中で打ち切られる可能性がある。

新機能②:タスクバジェット(ベータ)

エージェントループにおけるトークン消費上限をソフトに制御する機能だ。

response = client.messages.create(
    model="claude-opus-4-7-20260416",
    max_tokens=64000,
    betas=["task-budgets-2026-03-13"],
    output_config={
        "task_budget": {
            "type": "tokens",
            "total": 50000  # 最小値: 20,000トークン
        }
    },
    messages=[{"role": "user", "content": "このコードベースをリファクタリングしてください"}]
)

モデルはカウントダウンを認識し、予算を消費しながら優先度をつけて作業し、予算切れ前にgracefulにタスクを終了する。ハードカットオフとは異なり、中断ではなく収束した形で完了する点が特徴だ。

タスクバジェットの適用シーン

  • コスト管理:エージェントループが予想外に長くなるのを防ぐ
  • レイテンシ制御:応答時間に上限を設けたい場合
  • マルチエージェント:サブエージェントのリソース配分を制御する

現時点ではベータ機能のため、betas ヘッダーへの明示的な追加が必要。

新機能③:ビジョン強化

高解像度画像のサポートが拡張され、最大3.75メガピクセルの画像を入力可能になった。スクリーンショットを用いたUIテストや設計図の解析など、解像度が品質に直結するユースケースで有効だ。

移行時の主な注意点

1. 新トークナイザーによるコスト変化

# ❌ Opus 4.6のコストそのまま流用するとコスト超過の可能性
monthly_cost_4_6 = token_count * 25 / 1_000_000

# ✅ Opus 4.7では最大35%増を考慮したバッファを設定
monthly_cost_4_7_estimate = token_count * 1.35 * 25 / 1_000_000

テキスト内容によってトークン増加率が異なる(コードは増えにくい、自然言語は増えやすい傾向)。本番移行前に代表的なプロンプトで実測することを推奨する。

2. max_tokensの見直し

既存コードで max_tokens を低い値に設定している場合、xhigh effortの思考トークンが截断される可能性がある。

# ❌ 思考が途中で打ち切られる可能性
response = client.messages.create(
    model="claude-opus-4-7-20260416",
    max_tokens=4096,
    thinking={"type": "enabled", "effort": "xhigh"},
)

# ✅ xhigh以上では64k以上推奨
response = client.messages.create(
    model="claude-opus-4-7-20260416",
    max_tokens=64000,
    thinking={"type": "enabled", "effort": "xhigh"},
)

3. モデルIDの変更

# Opus 4.6(旧)
model = "claude-opus-4-6-20251201"

# Opus 4.7(新)
model = "claude-opus-4-7-20260416"

注意点・未確認事項

  • Terminal-Bench 2.0でのGPT-5.5(82.7%)との差(69.4%)は大きい。用途によってはGPT-5.5が優位な場合がある
  • タスクバジェットはソフトな目安であり、ハードな上限ではない。実際のトークン消費は設定値を超える可能性がある
  • SWE-bench Verified 87.6%はAnthropicの自己報告値。第三者による再現確認は本記事執筆時点では未確認

まとめ

Claude Opus 4.7はエージェントワークフロー向けに設計されたアップデートだ。SWE-bench Proで+10.9ptの改善、xhigh effortによる推論深さの細かい制御、タスクバジェットによるコスト制御が主な価値だ。ただし新トークナイザーによるトークン増加(最大35%)はOpus 4.6を使っているシステムに直接コスト影響を与えるため、移行時には必ず本番ワークロードで実測してから切り替えること。

参考リンク