SJ blog
ai
B

信頼度ランク

S 公式ソース確認済み
A 成功実績多数・失敗例少数
B 賛否両論
C 動作未確認・セキュリティリスク高
Z 個人所感

OPPO「X-OmniClaw」——カメラ・画面・音声を統合処理するAndroidエッジネイティブAIエージェントをオープンソース公開

OPPOのMente Labがオープンソース公開したX-OmniClawは、Android端末上でカメラ・スクリーン・音声を同時処理しアプリをまたいでタスクを実行するエッジネイティブなAIエージェント。物理端末上で直接動作し、クラウドは高レベル推論のみに使用する4層アーキテクチャを採用。

一言結論

X-OmniClawはAndroid 8.0以上の物理端末でカメラ・画面・音声を統合処理し、Observation→Reasoning→Executionの閉ループでアプリをまたいだタスクを自律実行する。クラウドは高レベル推論のみで使い、端末側に処理を集めるアーキテクチャが差別化点。arXiv 2605.05765のApache 2.0ライセンスのオープンソース実装だが、ベンチマーク比較データは限定的。

何が起きたか

2026年5月7日、OPPO の研究部門 Mente LabX-OmniClaw をオープンソース公開した(arXiv: 2605.05765)。

リポジトリ:   OPPO-Mente-Lab/X-OmniClaw
スター数:     127(公開初期)
ライセンス:   Apache 2.0
実装言語:     Kotlin (95.2%)
対象端末:     Android 8.0 以上
論文:         "X-OmniClaw Technical Report: A Unified Mobile Agent
               for Multimodal Understanding and Interaction"
arXiv:        2605.05765(2026年5月7日)

何ができるか

X-OmniClaw は Android 端末を「AIエージェントが操作する物理デバイス」として扱う。以下を統合処理する:

X-OmniClaw の入力チャネル:

カメラ(Camera):
  → 商品を撮影して価格比較
  → テキストをOCRして解釈
  → 現実世界のコンテキストをエージェントに提供

スクリーン(Screen):
  → 現在表示されているUIを解析
  → ボタン・テキストフィールドの位置を特定
  → アプリまたぎのナビゲーションを実行

音声(Voice / ASR):
  → 音声コマンドをテキストに変換
  → スクリーン表示と音声指示を組み合わせて解釈

デモとして公開されているユースケース:

実証されたタスク例:
  ✅ カメラで撮影した商品を複数のショッピングアプリで価格比較
  ✅ ギャラリー写真を自動分類・テキスト検索可能な形式に整理
  ✅ 音声で指示した演習問題を画面から読み取り解答を補助
  ✅ アプリをまたいだマルチステップタスクの自律実行
  ✅ 会話形式で操作手順を確認しながらタスクを実行

アーキテクチャ:4層クローズドループ

X-OmniClaw は Observation → Reasoning → Execution の繰り返しを核に、4層の閉ループで動作する:

┌─────────────────────────────────────┐
│  1. Perception(知覚)                │
│     スクリーンショット・カメラ・ASR   │
│     → マルチモーダル入力の統合        │
└────────────────┬────────────────────┘

┌────────────────▼────────────────────┐
│  2. Planning(計画)                  │
│     エージェントループ・タスク分解    │
│     → 次のアクションを決定            │
│     (クラウドLLMが高レベル推論を担当)│
└────────────────┬────────────────────┘

┌────────────────▼────────────────────┐
│  3. Execution(実行)                 │
│     タップ・テキスト入力・アプリ起動  │
│     → Android AccessibilityService   │
│     → ディープリンクナビゲーション    │
└────────────────┬────────────────────┘

┌────────────────▼────────────────────┐
│  4. Verification(検証)              │
│     タスク成功判定・失敗検知          │
│     → 失敗時は Perception に戻る      │
└─────────────────────────────────────┘

「エッジネイティブ」の意味:クラウドの使い方

端末上で処理するもの(Kotlin アプリ):
  ✅ UI 解析(AccessibilityService)
  ✅ タップ・入力などのアクション実行
  ✅ スクリーンショット取得・カメラ制御
  ✅ 設定ファイル管理(/sdcard/.xomniclaw/xomniclaw.json)
  ✅ セッション管理・並列タスク制御

クラウド(LLM)に委ねるもの:
  🌐 エージェントの高レベル推論(次に何をするか)
  🌐 音声認識(SiliconFlow SenseVoice Small 推奨)
  🌐 ビジョン理解(カメラ画像の意味解釈)

対応クラウドプロバイダ:
  OpenRouter, Anthropic, OpenAI, Moonshot, MiniMax, Ollama

「エッジネイティブ」はクラウドを使わないという意味ではなく、端末側でできることは端末で処理し、クラウドは推論コアとしてのみ使うという設計思想だ。


主要機能の詳細

ビジョンフォールバック

スクリーンのUI解析が困難な場合(ゲームアプリ・カスタムUIなど)に、スクリーンショットをVLM(Visual Language Model)で直接解析するデュアルトラック方式:

アクション決定フロー:
  
  スクリーン XML 解析 → 成功 → アクション実行

       └── 失敗(非標準UI等)


         スクリーンショット → VLM 解析 → アクション実行

ギャラリー・メディアワークフロー

写真ギャラリーをテキスト検索可能な形式に変換:

処理フロー:
  1. ギャラリーから写真を取得
  2. 各写真をVLMでキャプション生成
  3. テキストメモリ(SQLite)に保存
  4. 自然言語クエリで検索可能に

例: 「去年の海の写真を探して」
    → キャプションを検索して該当写真を返す

並列セッション

複数のエージェントタスクを同時実行し、制御された割り込み(controlled interruption)が可能:

// セッション管理の設計(概念)
val session1 = XOmniClaw.startSession("price_comparison")
val session2 = XOmniClaw.startSession("gallery_indexing")

// 並列実行(各セッションは独立したループを持つ)
session1.executeTask("カメラで撮った商品の最安値を探す")
session2.executeTask("今月の写真を自動分類する")

競合・類似プロジェクトとの比較

Androidエージェントの比較:

                    | X-OmniClaw      | Android向けManus | PC向けComputer Use
--------------------|-----------------|------------------|-------------------
動作環境            | 物理Android端末  | Android エミュ   | PC(デスクトップ)
マルチモーダル入力  | カメラ+画面+音声 | 画面のみ         | 画面のみ
オープンソース      | ✅ Apache 2.0   | ❌              | ❌
クラウド依存度      | 低(推論のみ)  | 高              | 高

注意点と課題

現時点の制限:

パフォーマンス:
  クラウドLLMへのAPIコール頻度がタスク速度のボトルネック
  → 複雑なタスクでは1ステップ数秒の遅延が発生

バッテリー消費:
  スクリーン常時解析・カメラ使用により消費が高い
  → バックグラウンド長時間実行には注意

プライバシー:
  スクリーンコンテンツがクラウドLLMに送信される
  → 機密情報(パスワード・個人情報)の扱いに注意

ベンチマーク:
  MobileAgentBenchなどとの比較スコアは現時点で未公表
  → 他のAndroidエージェントとの定量比較が困難

Android バージョン依存:
  AccessibilityService の仕様が OS バージョンにより差異
  → Android 8.0〜14 で動作確認が必要

まとめ・参考リンク

X-OmniClaw は「スマートフォンを AIエージェントが自律操作する端末」として扱う最初の本格的なオープンソース実装のひとつだ。Apache 2.0 ライセンスで自由に利用・改変できる点は、モバイルエージェント研究の加速に貢献する。一方、ベンチマーク比較データが乏しく、商用利用時の信頼性評価には追加検証が必要だ。

出典・参考リンク

未確認事項: MobileAgentBenchなど標準ベンチマークでの定量スコアは未公表。Ollamaを使ったオンデバイス推論の実現可能性(モデルサイズ・速度)は要検証。