#multimodal (3 件)

ai 2026年5月18日

OPPO「X-OmniClaw」——カメラ・画面・音声を統合処理するAndroidエッジネイティブAIエージェントをオープンソース公開

OPPOのMente Labがオープンソース公開したX-OmniClawは、Android端末上でカメラ・スクリーン・音声を同時処理しアプリをまたいでタスクを実行するエッジネイティブなAIエージェント。物理端末上で直接動作し、クラウドは高レベル推論のみに使用する4層アーキテクチャを採用。

#android #ai-agent #mobile #open-source #multimodal #edge-ai #oppo #kotlin

記事へ →

ai 2026年5月16日

Thinking Machines TML-Interaction-Small——0.4秒応答・200msマイクロターンで「フル二重」AIが実現する新対話モデル

元OpenAI CTO ミラ・ムラーティが率いるThinking Machines Labが276B MoEモデルTML-Interaction-Smallを発表。0.40秒応答・マルチモーダル連続処理でOpenAI Realtime APIに挑む新アーキテクチャを解説。

#ai #llm #realtime #multimodal #moe #voice-ai #interaction-model #thinking-machines

記事へ →

ai 2026年5月2日

NVIDIA Nemotron 3 Nano Omni——Apache 2.0・30BパラメータのオープンマルチモーダルモデルでエッジAIエージェントを構築する

2026年4月28日、NVIDIAがNemotron 3 Nano Omniをリリース。視覚・音声・テキスト・コードを単一モデルで処理するMoEアーキテクチャ（30B総量/3Bアクティブ）でApache 2.0ライセンス。Nemotron 2比4倍のスループット。エッジAIエージェントへの実装方法を解説する。

#nvidia #nemotron #open-source #multimodal #ai-agents #llm #moe #edge-ai #inference #apache2

記事へ →