SJ blog
ai
A

信頼度ランク

S 公式ソース確認済み
A 成功実績多数・失敗例少数
B 賛否両論
C 動作未確認・セキュリティリスク高
Z 個人所感

OpenAI GPT-Realtime-2——GPT-5級の推論・128Kコンテキスト・70言語リアルタイム翻訳でボイスエージェント開発が変わる

OpenAI Realtime API GA(2026/5/8)。GPT-5.5クラスの推論・128KコンテキストのGPT-Realtime-2と、70言語翻訳・ライブ文字起こしの専用2モデルが追加された。

一言結論

GPT-Realtime-2はGPT-5クラスの推論能力を音声モデルに持ち込み、推論レベル(low〜xhigh)の選択・並列ツール呼び出し・128Kコンテキストを提供する。Realtime APIがベータを脱してGAとなり、音声エージェントを本番化するための信頼性と可観測性が揃った。

何が起きたか

2026年5月8日、OpenAIが Realtime API のGA(一般提供)と、3つの新しい音声モデルの追加を発表した。

発表日:   2026年5月8日
変更内容: Realtime API がベータ卒業 → GA
新モデル:
  1. GPT-Realtime-2         — 音声推論・ツール呼び出し
  2. GPT-Realtime-Translate — リアルタイム音声翻訳
  3. GPT-Realtime-Whisper   — ライブ音声文字起こし

GPT-Realtime-2の主要機能

1. GPT-5クラスの推論

前バージョン(GPT-Realtime-1.5)が音声認識と応答生成の組み合わせだったのに対し、GPT-Realtime-2は GPT-5.5と同等クラスの推論能力 を持つ。

推論レベルの選択:
  minimal  — 最速、単純な応答向け
  low      — デフォルト、日常的なインタラクション
  medium   — 複雑なタスクへの対応
  high     — 多段推論が必要なシナリオ
  xhigh    — 最も深い推論(レイテンシが上がる)

ベンチマーク(OpenAI公称):
  Big Bench Audio(音声知能): GPT-Realtime-1.5比 +15.2%(high設定)
  Audio MultiChallenge:       GPT-Realtime-2 xhigh 48.5% vs RT-1.5 34.7%

2. 128K コンテキストウィンドウ

前バージョンの32Kから128Kへ拡大。これにより:

変化するユースケース:
  ✅ 長時間の会話セッション(カスタマーサポート・コーチング)
  ✅ 大量のシステムプロンプト(複雑な業務規約・商品カタログ)
  ✅ マルチターンの複雑なタスクフロー

従来の問題:
  ❌ 32Kを超えるとコンテキストが失われ、以前の発言を忘れた
  → 128Kで多くのリアルなユースケースが収まるようになった

3. 並列ツール呼び出し

複数のツールを同時に実行し、進捗を音声で伝えられる:

# 並列ツール呼び出しの例(Realtime API SDK)
tools = [
    {
        "type": "function",
        "name": "search_calendar",
        "description": "カレンダーを検索する"
    },
    {
        "type": "function",
        "name": "search_contacts",
        "description": "連絡先を検索する"
    }
]

# GPT-Realtime-2は両ツールを並列で実行しながら
# 「カレンダーを確認しています」「連絡先も調べています」
# のような中間フィードバックを自動生成する

2つの新コンパニオンモデル

GPT-Realtime-Translate

70言語以上の入力音声を13の出力言語にリアルタイム翻訳する専用モデル。

用途:
  - 多言語カスタマーサポート
  - リアルタイム通訳システム
  - 多言語コンテンツのライブ配信

対応言語:
  入力: 70言語以上
  出力: 13言語(日本語含む)

GPT-Realtime-Whisper

話している最中からリアルタイムでストリーミング文字起こしを行う。

# Realtime APIでのWhisperストリーミング接続例
import openai

client = openai.AsyncOpenAI()

# WebSocketベースのリアルタイム接続
async with client.beta.realtime.connect(model="gpt-realtime-whisper") as connection:
    await connection.session.update(session={
        "input_audio_transcription": {
            "model": "gpt-realtime-whisper"
        },
        "input_audio_format": "pcm16"
    })
    # 音声バッファを送信しながらリアルタイムでテキストを受信

Realtime API GA化の意味

ベータ期間中に欠けていた本番化に必要な要素が揃った:

GA化で追加/改善された点:
  ✅ 明確なSLA(サービスレベル合意)
  ✅ エンタープライズグレードの可観測性
  ✅ 99.9%以上の稼働率保証
  ✅ データ保持ポリシーの明確化
  ✅ コンプライアンス(SOC2 Type II等)対応

ベータ期間中にあった制限(解消):
  ❌ 突然のレート変更
  ❌ モデル挙動の非予告変更
  ❌ 限定的なエラーハンドリング

開発者への実装ガイド

# GPT-Realtime-2 基本実装パターン
import openai
import asyncio

client = openai.AsyncOpenAI()

async def voice_agent_session():
    async with client.beta.realtime.connect(
        model="gpt-realtime-2"
    ) as connection:
        # セッション設定: 推論レベルを medium に
        await connection.session.update(session={
            "modalities": ["text", "audio"],
            "reasoning_effort": "medium",    # low/medium/high/xhigh
            "voice": "alloy",
            "instructions": "あなたは日本語で応答する有能なアシスタントです。",
            "tools": [
                {
                    "type": "function",
                    "name": "get_weather",
                    "description": "指定した都市の天気を返す",
                    "parameters": {
                        "type": "object",
                        "properties": {
                            "city": {"type": "string"}
                        },
                        "required": ["city"]
                    }
                }
            ]
        })
        
        # 音声入力の送信
        await connection.input_audio_buffer.append(audio=audio_bytes_base64)
        await connection.input_audio_buffer.commit()
        await connection.response.create()
        
        # イベントループでレスポンスを受信
        async for event in connection:
            if event.type == "response.audio.delta":
                # 音声データをストリーミング再生
                play_audio_chunk(event.delta)
            elif event.type == "response.function_call_arguments.done":
                # ツール呼び出し結果を返す
                result = handle_tool_call(event.name, event.arguments)
                await connection.conversation.item.create(item={
                    "type": "function_call_output",
                    "call_id": event.call_id,
                    "output": result
                })
                await connection.response.create()

落とし穴・注意点

  • xhigh推論はレイテンシが高い: 音声インタラクションでxhigh推論を選ぶと応答が遅くなりUXが悪化する。リアルタイム性が必要なユースケースでは low〜medium を基本とし、複雑なタスク時のみ high を使うハイブリッド戦略が現実的
  • コスト: GPT-Realtime-2はGPT-Realtime-1.5より高価。特にxhigh推論は計算コストが高い。推論レベルのデフォルトをlowにしてユーザー要求に応じて上げるアーキテクチャを検討する
  • 128Kコンテキストは長いセッションで急増するコスト: 長時間会話ではコンテキストウィンドウが蓄積しコストが跳ね上がる。重要情報のみ保持するコンテキスト管理ロジックが必要

まとめ・参考リンク

GPT-Realtime-2とRealtime APIのGA化は、音声エージェントを「実験」から「本番プロダクト」に格上げする転換点だ。GPT-5クラスの推論・128Kコンテキスト・並列ツール呼び出しが揃い、カスタマーサポート・医療問診・教育ボット・多言語サービスの実装コストが大幅に下がった。

参考リンク:

注意事項: ベンチマーク数値(Big Bench Audio +15.2%等)はOpenAI自社公称の数値。独立した第三者による検証は未実施。推論レベルごとのレイテンシ・コストは公式価格ページで確認すること。