SJ blog
ai
A

信頼度ランク

S 公式ソース確認済み
A 成功実績多数・失敗例少数
B 賛否両論
C 動作未確認・セキュリティリスク高
Z 個人所感

GPT-5.5正式リリース——コードネームSpudは4月23日に公開、Terminal-Bench 82.7%・API $5/1Mトークンの実際

OpenAIが4月23日にGPT-5.5をリリース。Terminal-Bench 2.0で82.7%(Claude Opus 4.7比+13.3pt)、API価格は$5/1M入力・$30/1M出力。4月22日の予測記事の続報として実際の数字と開発者への影響を整理。

一言結論

4月23日、OpenAIはGPT-5.5を正式リリースした。コードネームSpudはGPT-5.5と確認。Terminal-Bench 2.0で82.7%・GDPvalで84.9%を記録し主要ベンチマークでトップ。API価格はGPT-5.4の2倍だが出力トークン数が約40%減るため実コストは約20%増にとどまる見通し。GPT-4.5以来初の完全再訓練ベースモデルで、エージェント性能が大きく飛躍した。

UPDATE (2026-04-24): 4月22日の記事「OpenAIの次世代モデル『Spud』が明日にも公開か」の続報です。予測通り翌日にGPT-5.5として正式リリースされました。本記事では確認された数字と開発者への実際の影響をまとめます。

何がリリースされたのか

2026年4月23日、OpenAIはGPT-5.5を正式公開した。コードネーム「Spud」として流出・推測されていたモデルが、GPT-5.5として確定した形だ。

GPT-5.5 リリース概要 (2026-04-23)
──────────────────────────────────────
ベースモデル : 完全再訓練(GPT-4.5以来初)
コンテキスト : 1,000,000トークン
公開対象     : Plus / Pro / Business / Enterprise(ChatGPT + Codex)
API          : 「近日公開」(価格は確定済み)
リスク分類   : OpenAI内部基準「High」(Criticalには非該当)

ベンチマーク:競合との差

OpenAIが公表した主要ベンチマーク結果:

ベンチマークGPT-5.5Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%69.4%68.5%
GDPval84.9%未公表未公表

Terminal-Bench 2.0はコマンドライン上での複雑なワークフロー(計画・反復・ツール連携)を評価するベンチマークで、エージェント的な使い方に近い。GPT-5.5はGPT-5.4比で7.6ポイント上回る82.7%を記録している。

また、OpenAIは「per-tokenのレイテンシはGPT-5.4と同等を維持しながら精度が向上した」と主張している。能力と速度の同時改善は珍しい。

API価格:倍になったが実コストは約20%増

API価格比較:
                  GPT-5.4       GPT-5.5       GPT-5.5 Pro
入力 ($/1M)       $2.50         $5.00         $30.00
出力 ($/1M)       $15.00        $30.00        $180.00
コンテキスト       512K          1M            1M

一見2倍のインパクトに見えるが、OpenAIは「出力トークン数が約40%削減される」と述べている。理由はモデルの応答精度向上により、同じタスクに必要な往復回数が減るからだ。試算すると:

# 実コスト試算(仮定:入力1M / 出力1M per タスク)
# GPT-5.4
cost_54 = 1 * 2.50 + 1 * 15.00  # = $17.50

# GPT-5.5(出力40%削減想定)
cost_55 = 1 * 5.00 + 0.6 * 30.00  # = $23.00

# 実質コスト増加率
increase = (23.00 - 17.50) / 17.50  # ≈ 31%

出力削減率が実際に40%に達するかはワークロード依存だ。エージェントループで大量に往復するユースケースでは削減効果が出やすい。

GPT-5.5が特に強い用途

OpenAIが「設計上の強化点」として挙げる領域:

  • コーディング・デバッグ:コンテキストを跨いだ複数ファイルの変更
  • Webブラウジング+リサーチ:情報収集・集約・レポート生成
  • スプレッドシート・ドキュメント:データ加工・分析・文書作成
  • マルチステップタスク:人間のフォローアップなしに継続する能力

Dan Shipper(Every社CEO)は「これまで使ったコーディングモデルの中で初めて『概念的な明晰さ』を感じた」と評価している。

開発者が今すぐ確認すべきこと

ChatGPT/Codex経由(プラン契約者)

Plus・Pro・Business・Enterpriseのユーザーはモデル選択からGPT-5.5を選択可能。

API経由(今後)

現時点ではAPIは「近日公開」だ。既存のGPT-5.4ベースのプロダクションシステムをすぐに切り替える必要はない。ただし以下の点を事前に確認しておくとよい:

# モデル名が確定次第、こうなる見込み
client.chat.completions.create(
    model="gpt-5.5",          # or "gpt-5.5-pro"
    messages=[...],
    max_tokens=4096,
)

コスト計画の再評価

出力トークン40%削減はOpenAIの主張であり、実際のシステムで検証が必要だ。移行前にサンプルリクエストでのトークン数を計測しておくことを推奨する。

注意点・未確認情報

  • API公開タイミング未確定:「very soon」とのみアナウンス。具体日時は不明。
  • 出力削減40%は理論値:OpenAI主張の数値。ユースケース依存で実際の削減率は異なる。
  • GPT-5.5 Proの必要性:ほとんどのユースケースは標準GPT-5.5で十分と思われる。Proが有効なのは高精度が極めて重要な場面。
  • リスク分類「High」:OpenAIの内部基準でHighと判定されているが、Criticalではないとされる。外部からの検証はない。

まとめ

GPT-5.5は「予想通りの日に予想通りのモデルが出た」という形で登場した。コードネームSpudの時点から漏れていた情報と大きなギャップはない。ただし具体的な数字——Terminal-Bench 82.7%という競合との13ポイント差、API価格の2倍設定、1Mコンテキスト——は開発計画に直接影響する。APIが公開され次第、エージェントワークフロー向けのコスト・性能トレードオフを実測することが次のステップだ。

参考リンク