OPPO「X-OmniClaw」——カメラ・画面・音声を統合処理するAndroidエッジネイティブAIエージェントをオープンソース公開

何が起きたか

2026年5月7日、OPPO の研究部門 Mente Lab が X-OmniClaw をオープンソース公開した（arXiv: 2605.05765）。

リポジトリ:   OPPO-Mente-Lab/X-OmniClaw
スター数:     127（公開初期）
ライセンス:   Apache 2.0
実装言語:     Kotlin (95.2%)
対象端末:     Android 8.0 以上
論文:         "X-OmniClaw Technical Report: A Unified Mobile Agent
               for Multimodal Understanding and Interaction"
arXiv:        2605.05765（2026年5月7日）

何ができるか

X-OmniClaw は Android 端末を「AIエージェントが操作する物理デバイス」として扱う。以下を統合処理する：

X-OmniClaw の入力チャネル:

カメラ（Camera）:
  → 商品を撮影して価格比較
  → テキストをOCRして解釈
  → 現実世界のコンテキストをエージェントに提供

スクリーン（Screen）:
  → 現在表示されているUIを解析
  → ボタン・テキストフィールドの位置を特定
  → アプリまたぎのナビゲーションを実行

音声（Voice / ASR）:
  → 音声コマンドをテキストに変換
  → スクリーン表示と音声指示を組み合わせて解釈

デモとして公開されているユースケース：

実証されたタスク例:
  ✅ カメラで撮影した商品を複数のショッピングアプリで価格比較
  ✅ ギャラリー写真を自動分類・テキスト検索可能な形式に整理
  ✅ 音声で指示した演習問題を画面から読み取り解答を補助
  ✅ アプリをまたいだマルチステップタスクの自律実行
  ✅ 会話形式で操作手順を確認しながらタスクを実行

アーキテクチャ：4層クローズドループ

X-OmniClaw は Observation → Reasoning → Execution の繰り返しを核に、4層の閉ループで動作する：

┌─────────────────────────────────────┐
│  1. Perception（知覚）                │
│     スクリーンショット・カメラ・ASR   │
│     → マルチモーダル入力の統合        │
└────────────────┬────────────────────┘
                 │
┌────────────────▼────────────────────┐
│  2. Planning（計画）                  │
│     エージェントループ・タスク分解    │
│     → 次のアクションを決定            │
│     （クラウドLLMが高レベル推論を担当）│
└────────────────┬────────────────────┘
                 │
┌────────────────▼────────────────────┐
│  3. Execution（実行）                 │
│     タップ・テキスト入力・アプリ起動  │
│     → Android AccessibilityService   │
│     → ディープリンクナビゲーション    │
└────────────────┬────────────────────┘
                 │
┌────────────────▼────────────────────┐
│  4. Verification（検証）              │
│     タスク成功判定・失敗検知          │
│     → 失敗時は Perception に戻る      │
└─────────────────────────────────────┘

「エッジネイティブ」の意味：クラウドの使い方

端末上で処理するもの（Kotlin アプリ）:
  ✅ UI 解析（AccessibilityService）
  ✅ タップ・入力などのアクション実行
  ✅ スクリーンショット取得・カメラ制御
  ✅ 設定ファイル管理（/sdcard/.xomniclaw/xomniclaw.json）
  ✅ セッション管理・並列タスク制御

クラウド（LLM）に委ねるもの:
  🌐 エージェントの高レベル推論（次に何をするか）
  🌐 音声認識（SiliconFlow SenseVoice Small 推奨）
  🌐 ビジョン理解（カメラ画像の意味解釈）

対応クラウドプロバイダ:
  OpenRouter, Anthropic, OpenAI, Moonshot, MiniMax, Ollama

「エッジネイティブ」はクラウドを使わないという意味ではなく、端末側でできることは端末で処理し、クラウドは推論コアとしてのみ使うという設計思想だ。

主要機能の詳細

ビジョンフォールバック

スクリーンのUI解析が困難な場合（ゲームアプリ・カスタムUIなど）に、スクリーンショットをVLM（Visual Language Model）で直接解析するデュアルトラック方式：

アクション決定フロー:
  
  スクリーン XML 解析 → 成功 → アクション実行
       │
       └── 失敗（非標準UI等）
              │
              ▼
         スクリーンショット → VLM 解析 → アクション実行

ギャラリー・メディアワークフロー

写真ギャラリーをテキスト検索可能な形式に変換：

処理フロー:
  1. ギャラリーから写真を取得
  2. 各写真をVLMでキャプション生成
  3. テキストメモリ（SQLite）に保存
  4. 自然言語クエリで検索可能に

例: 「去年の海の写真を探して」
    → キャプションを検索して該当写真を返す

並列セッション

複数のエージェントタスクを同時実行し、制御された割り込み（controlled interruption）が可能：

// セッション管理の設計（概念）
val session1 = XOmniClaw.startSession("price_comparison")
val session2 = XOmniClaw.startSession("gallery_indexing")

// 並列実行（各セッションは独立したループを持つ）
session1.executeTask("カメラで撮った商品の最安値を探す")
session2.executeTask("今月の写真を自動分類する")

競合・類似プロジェクトとの比較

Androidエージェントの比較:

                    | X-OmniClaw      | Android向けManus | PC向けComputer Use
--------------------|-----------------|------------------|-------------------
動作環境            | 物理Android端末  | Android エミュ   | PC（デスクトップ）
マルチモーダル入力  | カメラ+画面+音声 | 画面のみ         | 画面のみ
オープンソース      | ✅ Apache 2.0   | ❌              | ❌
クラウド依存度      | 低（推論のみ）  | 高              | 高

注意点と課題

現時点の制限:

パフォーマンス:
  クラウドLLMへのAPIコール頻度がタスク速度のボトルネック
  → 複雑なタスクでは1ステップ数秒の遅延が発生

バッテリー消費:
  スクリーン常時解析・カメラ使用により消費が高い
  → バックグラウンド長時間実行には注意

プライバシー:
  スクリーンコンテンツがクラウドLLMに送信される
  → 機密情報（パスワード・個人情報）の扱いに注意

ベンチマーク:
  MobileAgentBenchなどとの比較スコアは現時点で未公表
  → 他のAndroidエージェントとの定量比較が困難

Android バージョン依存:
  AccessibilityService の仕様が OS バージョンにより差異
  → Android 8.0〜14 で動作確認が必要

まとめ・参考リンク

X-OmniClaw は「スマートフォンを AIエージェントが自律操作する端末」として扱う最初の本格的なオープンソース実装のひとつだ。Apache 2.0 ライセンスで自由に利用・改変できる点は、モバイルエージェント研究の加速に貢献する。一方、ベンチマーク比較データが乏しく、商用利用時の信頼性評価には追加検証が必要だ。

出典・参考リンク

未確認事項: MobileAgentBenchなど標準ベンチマークでの定量スコアは未公表。Ollamaを使ったオンデバイス推論の実現可能性（モデルサイズ・速度）は要検証。

S	公式ソース確認済み
A	成功実績多数・失敗例少数
B	賛否両論
C	動作未確認・セキュリティリスク高
Z	個人所感