SJ blog
ai
A

信頼度ランク

S 公式ソース確認済み
A 成功実績多数・失敗例少数
B 賛否両論
C 動作未確認・セキュリティリスク高
Z 個人所感

Thinking Machines TML-Interaction-Small——0.4秒応答・200msマイクロターンで「フル二重」AIが実現する新対話モデル

元OpenAI CTO ミラ・ムラーティが率いるThinking Machines Labが276B MoEモデルTML-Interaction-Smallを発表。0.40秒応答・マルチモーダル連続処理でOpenAI Realtime APIに挑む新アーキテクチャを解説。

一言結論

TML-Interaction-SmallはMoEアーキテクチャ(276B総パラメータ・12Bアクティブ)で0.40秒の応答遅延を達成した。200msマイクロターンでオーディオ・ビデオ・テキストを同時処理するフル二重設計は、従来のリクエスト-レスポンス型AIの限界を超え、リアルタイム人間-AI協調の実現を目指す。

何が起きたか

2026年5月11〜13日、元 OpenAI CTO のミラ・ムラーティが創業した Thinking Machines Lab が新しいモデルクラス「インタラクションモデル(Interaction Models)」と、その最初の実装である TML-Interaction-Small を発表した。

TML-Interaction-Small 基本情報:
  発表日:       2026年5月11日(TechCrunch)
               2026年5月12日(技術詳細公開)
               2026年5月13日(MarkTechPost 詳細分析)
  開発元:       Thinking Machines Lab(Mira Murati 創業、$2B 調達済)
  種別:         Mixture-of-Experts(MoE)マルチモーダルモデル
  総パラメータ: 276B
  アクティブ:   12B(推論時)
  応答遅延:     0.40 秒(FD-bench v1、比較モデル中最速)
  現況:         限定リサーチプレビュー中

「インタラクションモデル」とは何か

従来の音声 AI(OpenAI Realtime API を含む)は本質的には非同期型だ。ユーザーが話し終えるのを待ち、音声を文字起こしし、LLM に投げ、返答を音声合成して返す。

TML-Interaction-Small はアーキテクチャレベルでこの前提を覆す

❌ 従来のリクエスト-レスポンス型:
  [ユーザー発話] → [VAD検出:沈黙で終端] → [ASR] → [LLM] → [TTS] → [返答]
  遅延: 1〜3秒(各ステップの積み上げ)

✅ TML-Interaction-Small のフル二重型:
  [200ms チャンク] → [Interaction Model: 連続処理] → [200ms 後に応答開始]
  遅延: 0.40秒(入力完了を待たずに処理開始)

  さらに:
  → 話しながら聞く(ユーザーの割り込みを即座に検知)
  → ビデオフィード(カメラ映像)も同時に処理
  → バックグラウンドで非同期に推論・ツール呼び出し

技術アーキテクチャの詳細

エンコーダーフリー早期融合(Encoder-Free Early Fusion)

TML-Interaction-Small は音声・映像のための外部エンコーダーを持たない。すべてのモダリティを単一モデルで処理する。

音声の処理:
  入力: 200ms チャンクの生音声
  変換: dMel(離散メル)表現
  埋め込み: 軽量な埋め込み層
  → 別のWhisper等への依存なし

映像の処理:
  入力: カメラフレーム
  分割: 40×40 ピクセルパッチ
  エンコード: hMLP モジュール(軽量パッチエンコーダ)
  → 別のViT等への依存なし

音声出力:
  デコード: フローヘッド(flow head)
  → リアルタイム音声合成(TTS ではなくモデル内蔵)

すべてのコンポーネントはスクラッチからジョイントトレーニング

2モデル分割アーキテクチャ

フォアグラウンドモデル(Interaction Model):
  役割: ユーザーとの常時接続・リアルタイム応答
  動作: 200ms マイクロターン × 連続ストリーミングセッション
  特性: 超低遅延・軽量

バックグラウンドモデル(Reasoning/Tool Model):
  役割: 複雑な推論・ツール呼び出し(非同期)
  動作: フォアグラウンドが会話を継続している間に並行実行
  特性: 高精度・非リアルタイム

連携:
  ユーザーが「今日の天気は?」と聞く
  → フォアグラウンドが「確認しますね」と即応答(0.4秒)
  → バックグラウンドが天気 API を呼び出し(非同期)
  → 結果をフォアグラウンドにフィード
  → 自然な会話の流れが続く

推論最適化

# SGLang ベースのストリーミングセッション実装(概念)
# 各 200ms チャンクを別リクエストとして送信

async def interaction_session():
    session_id = create_session()  # GPU メモリに KV キャッシュを確保
    
    while conversation_active:
        chunk = await capture_audio_video(duration_ms=200)
        
        # 前のチャンクのシーケンスに追記(メモリ再確保なし)
        response = await model.stream_chunk(
            session_id=session_id,
            chunk=chunk,
            append_to_sequence=True  # ← ここがキモ
        )
        
        if response.has_output:
            await play_audio(response.audio)

MoE の推論には標準的な grouped gemm ではなく gather+gemv 戦略を使用し、アクティブ 12B パラメータの推論効率を最大化している。


OpenAI GPT-Realtime-2 との比較

当ブログでは OpenAI GPT-Realtime-2 を以前に取り上げた。TML-Interaction-Small との主な違いを整理する。

項目OpenAI GPT-Realtime-2TML-Interaction-Small
応答遅延未公表(低遅延をうたう)0.40秒(FD-bench v1)
モデル構成単一モデル(詳細非公開)MoE 276B / 12B + バックグラウンドモデル
映像入力限定的ネイティブ(40×40 パッチ)
エンコーダ外部エンコーダ使用エンコーダーフリー(ジョイント)
話し中の割り込み対応ネイティブ対応(連続処理)
API 形式Realtime API(WebSocket)研究プレビュー中(API 詳細非公開)
提供元OpenAIThinking Machines Lab

開発者への示唆

TML-Interaction-Small はまだリサーチプレビュー段階で、本番 API は公開されていない。しかし、そのアーキテクチャは以下のことを示唆している:

今後の音声AIアプリ開発で変わること:

1. VAD(音声活動検出)の廃止
   従来: 沈黙を検出してターンを確定
   今後: モデルが会話のリズムをネイティブに理解

2. ASR + LLM + TTS のパイプライン廃止
   従来: 3つの外部サービスを直列に繋ぐ
   今後: 単一のフル二重モデルで処理

3. マルチモーダルのデフォルト化
   従来: テキストまたは音声(切り替え)
   今後: オーディオ・ビデオ・テキストを常時同時処理

4. リアルタイムツール呼び出し
   従来: 返答生成後にツール実行
   今後: バックグラウンドモデルが会話中に並行実行

落とし穴・注意点

  • 研究プレビューのため本番利用は不可: 2026年5月時点では限定アクセスのみ。ビジネス用途への採用は時期尚早
  • モデルサイズはコスト要因: MoE 276B(アクティブ 12B)は推論コストが未公表。OpenAI Realtime API より高コストになる可能性
  • 映像処理の品質は未検証: 40×40 パッチ解像度での細粒度な映像理解(小さなテキスト読み取り等)は限界がある可能性
  • 技術詳細は公式ブログ以外は未査読: ベンチマーク FD-bench v1 は自社評価。独立した第三者評価を待つことを推奨

まとめ

Thinking Machines Lab の TML-Interaction-Small は、音声 AI の「非同期パイプライン」パラダイムに正面から挑んだ実装だ。276B MoE で 0.40 秒という遅延は、人間同士の会話(~300ms の自然な反応時間)に近づいている。エンコーダーフリーのジョイント学習・200ms マイクロターン・バックグラウンド非同期推論という設計は、次世代リアルタイム AI の実装パターンとして注目に値する。OpenAI Realtime API の GA(2026年5月)と同時期に出てきた競合実装として、音声エージェント開発者は動向を追う価値がある。


参考リンク

免責: TML-Interaction-Small の技術詳細は 2026年5月時点の発表資料に基づく。ベンチマーク FD-bench v1 は自社評価であり、独立した検証はまだ限定的。研究プレビュー段階のため、最終製品仕様と異なる可能性がある。