Claude Opus 4.7リリース——SWE-bench 64.3%・xhigh effort・タスクバジェットで強化されたエージェント向けモデル

なぜClaude Opus 4.7が重要か

2026年4月16日、AnthropicがClaude Opus 4.7を正式リリースした。Opus 4.6から約3ヶ月ぶりのメジャー更新で、コーディングとエージェントワークフロー向けの性能向上が中心だ。

価格はOpus 4.6と変わらず $5/1M入力・$25/1M出力だが、新しいトークナイザーの導入により同じプロンプトでも最大35%トークン消費が増加する可能性がある。モデルの精度向上と合わせて、実際のコスト変化はワークロード次第だ。

ベンチマーク比較

ベンチマーク	Opus 4.6	Opus 4.7	差分
SWE-bench Pro	53.4%	64.3%	+10.9pt
SWE-bench Verified	80.8%	87.6%	+6.8pt
Terminal-Bench 2.0	—	69.4%	（GPT-5.5は82.7%）

SWE-bench ProはGitHubの実際のissueを解決するコーディングタスクのうち「困難」に分類されるサブセットだ。Opus 4.6とOpus 4.7どちらでもSonnet 4.6では解けなかった4タスクが解けるようになった点が実用上の意味を持つ。

新機能①：xhigh effortレベル

Anthropicのthinking（拡張推論）機能では effort パラメータでモデルの計算深さを制御できる。Opus 4.7で xhigh という新レベルが追加された。

none < low < medium < high < xhigh < max

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-7-20260416",
    max_tokens=64000,  # xhigh/max使用時は64k以上推奨
    thinking={
        "type": "enabled",
        "effort": "xhigh"  # 新しいレベル：highとmaxの中間
    },
    messages=[{"role": "user", "content": "複雑なアーキテクチャ設計の問題を解いてください"}]
)

Anthropicは「ほとんどのコーディング・エージェント用途では xhigh から始めることを推奨」としている。max は最高精度が求められるが計算コストが高いケース向けだ。

注意点：xhigh または max を使用する場合、max_tokens を最低64,000以上に設定することが推奨される。デフォルト値のままでは生成が途中で打ち切られる可能性がある。

新機能②：タスクバジェット（ベータ）

エージェントループにおけるトークン消費上限をソフトに制御する機能だ。

response = client.messages.create(
    model="claude-opus-4-7-20260416",
    max_tokens=64000,
    betas=["task-budgets-2026-03-13"],
    output_config={
        "task_budget": {
            "type": "tokens",
            "total": 50000  # 最小値: 20,000トークン
        }
    },
    messages=[{"role": "user", "content": "このコードベースをリファクタリングしてください"}]
)

モデルはカウントダウンを認識し、予算を消費しながら優先度をつけて作業し、予算切れ前にgracefulにタスクを終了する。ハードカットオフとは異なり、中断ではなく収束した形で完了する点が特徴だ。

タスクバジェットの適用シーン

コスト管理：エージェントループが予想外に長くなるのを防ぐ
レイテンシ制御：応答時間に上限を設けたい場合
マルチエージェント：サブエージェントのリソース配分を制御する

現時点ではベータ機能のため、betas ヘッダーへの明示的な追加が必要。

新機能③：ビジョン強化

高解像度画像のサポートが拡張され、最大3.75メガピクセルの画像を入力可能になった。スクリーンショットを用いたUIテストや設計図の解析など、解像度が品質に直結するユースケースで有効だ。

移行時の主な注意点

1. 新トークナイザーによるコスト変化

# ❌ Opus 4.6のコストそのまま流用するとコスト超過の可能性
monthly_cost_4_6 = token_count * 25 / 1_000_000

# ✅ Opus 4.7では最大35%増を考慮したバッファを設定
monthly_cost_4_7_estimate = token_count * 1.35 * 25 / 1_000_000

テキスト内容によってトークン増加率が異なる（コードは増えにくい、自然言語は増えやすい傾向）。本番移行前に代表的なプロンプトで実測することを推奨する。

2. max_tokensの見直し

既存コードで max_tokens を低い値に設定している場合、xhigh effortの思考トークンが截断される可能性がある。

# ❌ 思考が途中で打ち切られる可能性
response = client.messages.create(
    model="claude-opus-4-7-20260416",
    max_tokens=4096,
    thinking={"type": "enabled", "effort": "xhigh"},
)

# ✅ xhigh以上では64k以上推奨
response = client.messages.create(
    model="claude-opus-4-7-20260416",
    max_tokens=64000,
    thinking={"type": "enabled", "effort": "xhigh"},
)

3. モデルIDの変更

# Opus 4.6（旧）
model = "claude-opus-4-6-20251201"

# Opus 4.7（新）
model = "claude-opus-4-7-20260416"

注意点・未確認事項

Terminal-Bench 2.0でのGPT-5.5（82.7%）との差（69.4%）は大きい。用途によってはGPT-5.5が優位な場合がある
タスクバジェットはソフトな目安であり、ハードな上限ではない。実際のトークン消費は設定値を超える可能性がある
SWE-bench Verified 87.6%はAnthropicの自己報告値。第三者による再現確認は本記事執筆時点では未確認

まとめ

Claude Opus 4.7はエージェントワークフロー向けに設計されたアップデートだ。SWE-bench Proで+10.9ptの改善、xhigh effortによる推論深さの細かい制御、タスクバジェットによるコスト制御が主な価値だ。ただし新トークナイザーによるトークン増加（最大35%）はOpus 4.6を使っているシステムに直接コスト影響を与えるため、移行時には必ず本番ワークロードで実測してから切り替えること。

S	公式ソース確認済み
A	成功実績多数・失敗例少数
B	賛否両論
C	動作未確認・セキュリティリスク高
Z	個人所感