信頼度ランク
| S | 公式ソース確認済み |
| A | 成功実績多数・失敗例少数 |
| B | 賛否両論 |
| C | 動作未確認・セキュリティリスク高 |
| Z | 個人所感 |
Thinking Machines TML-Interaction-Small——0.4秒応答・200msマイクロターンで「フル二重」AIが実現する新対話モデル
元OpenAI CTO ミラ・ムラーティが率いるThinking Machines Labが276B MoEモデルTML-Interaction-Smallを発表。0.40秒応答・マルチモーダル連続処理でOpenAI Realtime APIに挑む新アーキテクチャを解説。
一言結論
TML-Interaction-SmallはMoEアーキテクチャ(276B総パラメータ・12Bアクティブ)で0.40秒の応答遅延を達成した。200msマイクロターンでオーディオ・ビデオ・テキストを同時処理するフル二重設計は、従来のリクエスト-レスポンス型AIの限界を超え、リアルタイム人間-AI協調の実現を目指す。
何が起きたか
2026年5月11〜13日、元 OpenAI CTO のミラ・ムラーティが創業した Thinking Machines Lab が新しいモデルクラス「インタラクションモデル(Interaction Models)」と、その最初の実装である TML-Interaction-Small を発表した。
TML-Interaction-Small 基本情報:
発表日: 2026年5月11日(TechCrunch)
2026年5月12日(技術詳細公開)
2026年5月13日(MarkTechPost 詳細分析)
開発元: Thinking Machines Lab(Mira Murati 創業、$2B 調達済)
種別: Mixture-of-Experts(MoE)マルチモーダルモデル
総パラメータ: 276B
アクティブ: 12B(推論時)
応答遅延: 0.40 秒(FD-bench v1、比較モデル中最速)
現況: 限定リサーチプレビュー中
「インタラクションモデル」とは何か
従来の音声 AI(OpenAI Realtime API を含む)は本質的には非同期型だ。ユーザーが話し終えるのを待ち、音声を文字起こしし、LLM に投げ、返答を音声合成して返す。
TML-Interaction-Small はアーキテクチャレベルでこの前提を覆す。
❌ 従来のリクエスト-レスポンス型:
[ユーザー発話] → [VAD検出:沈黙で終端] → [ASR] → [LLM] → [TTS] → [返答]
遅延: 1〜3秒(各ステップの積み上げ)
✅ TML-Interaction-Small のフル二重型:
[200ms チャンク] → [Interaction Model: 連続処理] → [200ms 後に応答開始]
遅延: 0.40秒(入力完了を待たずに処理開始)
さらに:
→ 話しながら聞く(ユーザーの割り込みを即座に検知)
→ ビデオフィード(カメラ映像)も同時に処理
→ バックグラウンドで非同期に推論・ツール呼び出し
技術アーキテクチャの詳細
エンコーダーフリー早期融合(Encoder-Free Early Fusion)
TML-Interaction-Small は音声・映像のための外部エンコーダーを持たない。すべてのモダリティを単一モデルで処理する。
音声の処理:
入力: 200ms チャンクの生音声
変換: dMel(離散メル)表現
埋め込み: 軽量な埋め込み層
→ 別のWhisper等への依存なし
映像の処理:
入力: カメラフレーム
分割: 40×40 ピクセルパッチ
エンコード: hMLP モジュール(軽量パッチエンコーダ)
→ 別のViT等への依存なし
音声出力:
デコード: フローヘッド(flow head)
→ リアルタイム音声合成(TTS ではなくモデル内蔵)
すべてのコンポーネントはスクラッチからジョイントトレーニング
2モデル分割アーキテクチャ
フォアグラウンドモデル(Interaction Model):
役割: ユーザーとの常時接続・リアルタイム応答
動作: 200ms マイクロターン × 連続ストリーミングセッション
特性: 超低遅延・軽量
バックグラウンドモデル(Reasoning/Tool Model):
役割: 複雑な推論・ツール呼び出し(非同期)
動作: フォアグラウンドが会話を継続している間に並行実行
特性: 高精度・非リアルタイム
連携:
ユーザーが「今日の天気は?」と聞く
→ フォアグラウンドが「確認しますね」と即応答(0.4秒)
→ バックグラウンドが天気 API を呼び出し(非同期)
→ 結果をフォアグラウンドにフィード
→ 自然な会話の流れが続く
推論最適化
# SGLang ベースのストリーミングセッション実装(概念)
# 各 200ms チャンクを別リクエストとして送信
async def interaction_session():
session_id = create_session() # GPU メモリに KV キャッシュを確保
while conversation_active:
chunk = await capture_audio_video(duration_ms=200)
# 前のチャンクのシーケンスに追記(メモリ再確保なし)
response = await model.stream_chunk(
session_id=session_id,
chunk=chunk,
append_to_sequence=True # ← ここがキモ
)
if response.has_output:
await play_audio(response.audio)
MoE の推論には標準的な grouped gemm ではなく gather+gemv 戦略を使用し、アクティブ 12B パラメータの推論効率を最大化している。
OpenAI GPT-Realtime-2 との比較
当ブログでは OpenAI GPT-Realtime-2 を以前に取り上げた。TML-Interaction-Small との主な違いを整理する。
| 項目 | OpenAI GPT-Realtime-2 | TML-Interaction-Small |
|---|---|---|
| 応答遅延 | 未公表(低遅延をうたう) | 0.40秒(FD-bench v1) |
| モデル構成 | 単一モデル(詳細非公開) | MoE 276B / 12B + バックグラウンドモデル |
| 映像入力 | 限定的 | ネイティブ(40×40 パッチ) |
| エンコーダ | 外部エンコーダ使用 | エンコーダーフリー(ジョイント) |
| 話し中の割り込み | 対応 | ネイティブ対応(連続処理) |
| API 形式 | Realtime API(WebSocket) | 研究プレビュー中(API 詳細非公開) |
| 提供元 | OpenAI | Thinking Machines Lab |
開発者への示唆
TML-Interaction-Small はまだリサーチプレビュー段階で、本番 API は公開されていない。しかし、そのアーキテクチャは以下のことを示唆している:
今後の音声AIアプリ開発で変わること:
1. VAD(音声活動検出)の廃止
従来: 沈黙を検出してターンを確定
今後: モデルが会話のリズムをネイティブに理解
2. ASR + LLM + TTS のパイプライン廃止
従来: 3つの外部サービスを直列に繋ぐ
今後: 単一のフル二重モデルで処理
3. マルチモーダルのデフォルト化
従来: テキストまたは音声(切り替え)
今後: オーディオ・ビデオ・テキストを常時同時処理
4. リアルタイムツール呼び出し
従来: 返答生成後にツール実行
今後: バックグラウンドモデルが会話中に並行実行
落とし穴・注意点
- 研究プレビューのため本番利用は不可: 2026年5月時点では限定アクセスのみ。ビジネス用途への採用は時期尚早
- モデルサイズはコスト要因: MoE 276B(アクティブ 12B)は推論コストが未公表。OpenAI Realtime API より高コストになる可能性
- 映像処理の品質は未検証: 40×40 パッチ解像度での細粒度な映像理解(小さなテキスト読み取り等)は限界がある可能性
- 技術詳細は公式ブログ以外は未査読: ベンチマーク FD-bench v1 は自社評価。独立した第三者評価を待つことを推奨
まとめ
Thinking Machines Lab の TML-Interaction-Small は、音声 AI の「非同期パイプライン」パラダイムに正面から挑んだ実装だ。276B MoE で 0.40 秒という遅延は、人間同士の会話(~300ms の自然な反応時間)に近づいている。エンコーダーフリーのジョイント学習・200ms マイクロターン・バックグラウンド非同期推論という設計は、次世代リアルタイム AI の実装パターンとして注目に値する。OpenAI Realtime API の GA(2026年5月)と同時期に出てきた競合実装として、音声エージェント開発者は動向を追う価値がある。
参考リンク
- Interaction Models - Thinking Machines Lab Blog
- Mira Murati’s Thinking Machines Lab Unveils Full-Duplex AI That Responds in 0.4 Seconds - The AI Insider
- Thinking Machines wants to build an AI that actually listens while it talks - TechCrunch
- Mira Murati’s Thinking Machines Lab Introduces Interaction Models - MarkTechPost
- AINews: Thinking Machines Native Interaction Models - Latent Space
- r/MachineLearning: Thinking Machines interaction models discussion
免責: TML-Interaction-Small の技術詳細は 2026年5月時点の発表資料に基づく。ベンチマーク FD-bench v1 は自社評価であり、独立した検証はまだ限定的。研究プレビュー段階のため、最終製品仕様と異なる可能性がある。