Thinking Machines TML-Interaction-Small——0.4秒応答・200msマイクロターンで「フル二重」AIが実現する新対話モデル

何が起きたか

2026年5月11〜13日、元 OpenAI CTO のミラ・ムラーティが創業した Thinking Machines Lab が新しいモデルクラス「インタラクションモデル（Interaction Models）」と、その最初の実装である TML-Interaction-Small を発表した。

TML-Interaction-Small 基本情報:
  発表日:       2026年5月11日（TechCrunch）
               2026年5月12日（技術詳細公開）
               2026年5月13日（MarkTechPost 詳細分析）
  開発元:       Thinking Machines Lab（Mira Murati 創業、$2B 調達済）
  種別:         Mixture-of-Experts（MoE）マルチモーダルモデル
  総パラメータ: 276B
  アクティブ:   12B（推論時）
  応答遅延:     0.40 秒（FD-bench v1、比較モデル中最速）
  現況:         限定リサーチプレビュー中

「インタラクションモデル」とは何か

従来の音声 AI（OpenAI Realtime API を含む）は本質的には非同期型だ。ユーザーが話し終えるのを待ち、音声を文字起こしし、LLM に投げ、返答を音声合成して返す。

TML-Interaction-Small はアーキテクチャレベルでこの前提を覆す。

❌ 従来のリクエスト-レスポンス型:
  [ユーザー発話] → [VAD検出：沈黙で終端] → [ASR] → [LLM] → [TTS] → [返答]
  遅延: 1〜3秒（各ステップの積み上げ）

✅ TML-Interaction-Small のフル二重型:
  [200ms チャンク] → [Interaction Model: 連続処理] → [200ms 後に応答開始]
  遅延: 0.40秒（入力完了を待たずに処理開始）

  さらに:
  → 話しながら聞く（ユーザーの割り込みを即座に検知）
  → ビデオフィード（カメラ映像）も同時に処理
  → バックグラウンドで非同期に推論・ツール呼び出し

技術アーキテクチャの詳細

エンコーダーフリー早期融合（Encoder-Free Early Fusion）

TML-Interaction-Small は音声・映像のための外部エンコーダーを持たない。すべてのモダリティを単一モデルで処理する。

音声の処理:
  入力: 200ms チャンクの生音声
  変換: dMel（離散メル）表現
  埋め込み: 軽量な埋め込み層
  → 別のWhisper等への依存なし

映像の処理:
  入力: カメラフレーム
  分割: 40×40 ピクセルパッチ
  エンコード: hMLP モジュール（軽量パッチエンコーダ）
  → 別のViT等への依存なし

音声出力:
  デコード: フローヘッド（flow head）
  → リアルタイム音声合成（TTS ではなくモデル内蔵）

すべてのコンポーネントはスクラッチからジョイントトレーニング

2モデル分割アーキテクチャ

フォアグラウンドモデル（Interaction Model）:
  役割: ユーザーとの常時接続・リアルタイム応答
  動作: 200ms マイクロターン × 連続ストリーミングセッション
  特性: 超低遅延・軽量

バックグラウンドモデル（Reasoning/Tool Model）:
  役割: 複雑な推論・ツール呼び出し（非同期）
  動作: フォアグラウンドが会話を継続している間に並行実行
  特性: 高精度・非リアルタイム

連携:
  ユーザーが「今日の天気は？」と聞く
  → フォアグラウンドが「確認しますね」と即応答（0.4秒）
  → バックグラウンドが天気 API を呼び出し（非同期）
  → 結果をフォアグラウンドにフィード
  → 自然な会話の流れが続く

推論最適化

# SGLang ベースのストリーミングセッション実装（概念）
# 各 200ms チャンクを別リクエストとして送信

async def interaction_session():
    session_id = create_session()  # GPU メモリに KV キャッシュを確保
    
    while conversation_active:
        chunk = await capture_audio_video(duration_ms=200)
        
        # 前のチャンクのシーケンスに追記（メモリ再確保なし）
        response = await model.stream_chunk(
            session_id=session_id,
            chunk=chunk,
            append_to_sequence=True  # ← ここがキモ
        )
        
        if response.has_output:
            await play_audio(response.audio)

MoE の推論には標準的な grouped gemm ではなく gather+gemv 戦略を使用し、アクティブ 12B パラメータの推論効率を最大化している。

OpenAI GPT-Realtime-2 との比較

当ブログでは OpenAI GPT-Realtime-2 を以前に取り上げた。TML-Interaction-Small との主な違いを整理する。

項目	OpenAI GPT-Realtime-2	TML-Interaction-Small
応答遅延	未公表（低遅延をうたう）	0.40秒（FD-bench v1）
モデル構成	単一モデル（詳細非公開）	MoE 276B / 12B + バックグラウンドモデル
映像入力	限定的	ネイティブ（40×40 パッチ）
エンコーダ	外部エンコーダ使用	エンコーダーフリー（ジョイント）
話し中の割り込み	対応	ネイティブ対応（連続処理）
API 形式	Realtime API（WebSocket）	研究プレビュー中（API 詳細非公開）
提供元	OpenAI	Thinking Machines Lab

開発者への示唆

TML-Interaction-Small はまだリサーチプレビュー段階で、本番 API は公開されていない。しかし、そのアーキテクチャは以下のことを示唆している：

今後の音声AIアプリ開発で変わること:

1. VAD（音声活動検出）の廃止
   従来: 沈黙を検出してターンを確定
   今後: モデルが会話のリズムをネイティブに理解

2. ASR + LLM + TTS のパイプライン廃止
   従来: 3つの外部サービスを直列に繋ぐ
   今後: 単一のフル二重モデルで処理

3. マルチモーダルのデフォルト化
   従来: テキストまたは音声（切り替え）
   今後: オーディオ・ビデオ・テキストを常時同時処理

4. リアルタイムツール呼び出し
   従来: 返答生成後にツール実行
   今後: バックグラウンドモデルが会話中に並行実行

落とし穴・注意点

研究プレビューのため本番利用は不可: 2026年5月時点では限定アクセスのみ。ビジネス用途への採用は時期尚早
モデルサイズはコスト要因: MoE 276B（アクティブ 12B）は推論コストが未公表。OpenAI Realtime API より高コストになる可能性
映像処理の品質は未検証: 40×40 パッチ解像度での細粒度な映像理解（小さなテキスト読み取り等）は限界がある可能性
技術詳細は公式ブログ以外は未査読: ベンチマーク FD-bench v1 は自社評価。独立した第三者評価を待つことを推奨

まとめ

Thinking Machines Lab の TML-Interaction-Small は、音声 AI の「非同期パイプライン」パラダイムに正面から挑んだ実装だ。276B MoE で 0.40 秒という遅延は、人間同士の会話（~300ms の自然な反応時間）に近づいている。エンコーダーフリーのジョイント学習・200ms マイクロターン・バックグラウンド非同期推論という設計は、次世代リアルタイム AI の実装パターンとして注目に値する。OpenAI Realtime API の GA（2026年5月）と同時期に出てきた競合実装として、音声エージェント開発者は動向を追う価値がある。

参考リンク

免責: TML-Interaction-Small の技術詳細は 2026年5月時点の発表資料に基づく。ベンチマーク FD-bench v1 は自社評価であり、独立した検証はまだ限定的。研究プレビュー段階のため、最終製品仕様と異なる可能性がある。

S	公式ソース確認済み
A	成功実績多数・失敗例少数
B	賛否両論
C	動作未確認・セキュリティリスク高
Z	個人所感