NVIDIA Nemotron 3 Nano Omni——Apache 2.0・30BパラメータのオープンマルチモーダルモデルでエッジAIエージェントを構築する

Nemotron 3 Nano Omni とは

2026年4月28日、NVIDIAは Nemotron 3 Nano Omni をリリースした。Nemotronシリーズ最新モデルで、視覚・音声・テキスト・コードを単一のモデルで処理できる「オムニモーダル」設計を採用している。

Nemotron 3 Nano Omni
├─ アーキテクチャ: Hybrid Latent MoE (Mixture-of-Experts)
├─ 総パラメータ:   30B
├─ 推論アクティブ: 3B（全体の10%）
├─ モダリティ:     テキスト / 画像 / 音声 / コード
├─ ライセンス:     Apache 2.0（商用利用自由）
└─ 入手先:         HuggingFace / OpenRouter / build.nvidia.com

「Nano」という名称が示すとおり、エッジデバイスやリソース制約環境での動作を主目的に設計されている。Nemotron 3シリーズにはNano・Super・Ultraの3サイズが予定されており、SuperとUltraは2026年前半リリース予定だ。

MoEアーキテクチャがエッジに有効な理由

Nemotron 3 Nano OmniはHybrid Latent MoEを採用している。推論時に30Bのパラメータをすべて使うのではなく、入力トークンの種類に応じて少数のエキスパートのみを活性化する。

通常のDenseモデル (例: 7Bモデル):
  入力トークン → 7Bパラメータを全部使う
  VRAM必要量: 14GB (BF16)

Nemotron 3 Nano Omni (MoE):
  入力トークン → 30B中3Bだけ活性化（動的に選択）
  VRAM必要量: ~6GB (INT4量子化時)

同等タスクでDenseモデルより高速・低消費電力で動作できるため、NVIDIA DGX Sparks（エッジAIワークステーション）やRTX 4090搭載ラップトップでもローカル推論が現実的になる。

前世代比のパフォーマンス

NVIDIAの公式ベンチマークによれば、Nemotron 3 Nano Omniは前世代のNemotron 2 Nanoと比較して以下の改善を達成している。

指標	Nemotron 2 Nano	Nemotron 3 Nano Omni
スループット（トークン/秒）	基準値	4倍
マルチエージェント並列処理	—	業界最速クラス
マルチモーダル対応	テキストのみ	視覚+音声+コード

マルチエージェントシステムでの利用が特に効果的で、複数のサブエージェントが並列にNemotron 3を呼び出すシナリオでは従来モデルより圧倒的なスループットを発揮する。

実装例：マルチモーダルエージェントの構築

HuggingFace Transformersでの起動

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

model_id = "nvidia/Nemotron-3-Nano-Omni"

# INT4量子化でGPUメモリを節約
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    load_in_4bit=True,          # ~6GB VRAMで動作
    bnb_4bit_compute_dtype=torch.bfloat16,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)

テキスト＋画像の同時処理

from PIL import Image
import requests

# 画像を読み込む
image = Image.open(requests.get("https://example.com/chart.png", stream=True).raw)

# マルチモーダルプロンプト
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image},
            {"type": "text", "text": "このグラフから異常値を特定して、Pythonでアラートを送るコードを書いて"}
        ]
    }
]

# 推論
outputs = model.generate(
    **tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device),
    max_new_tokens=512,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

OpenRouter API経由での利用（モデルを手元に置かない場合）

import openai

client = openai.OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sk-or-..."
)

response = client.chat.completions.create(
    model="nvidia/nemotron-3-nano-omni",
    messages=[
        {"role": "user", "content": "音声ファイルの文字起こし結果から要約を作成して"},
    ],
    max_tokens=1024,
)
print(response.choices[0].message.content)

マルチエージェントシステムでの活用パターン

Nemotron 3 Nano Omniが特に強みを発揮するのは、複数エージェントが分担して大タスクを実行するシステムだ。

# マルチエージェントオーケストレーターの例
# エージェント1: 画像分析（ビジョンモダリティ）
# エージェント2: 音声書き起こし（音声モダリティ）
# エージェント3: コード生成（コードモダリティ）

import asyncio

async def vision_agent(image_path: str) -> str:
    """画像を分析して構造化データを返す"""
    return await call_nemotron(modality="vision", input=image_path)

async def audio_agent(audio_path: str) -> str:
    """音声を書き起こして要約を返す"""
    return await call_nemotron(modality="audio", input=audio_path)

async def code_agent(spec: str) -> str:
    """仕様からコードを生成する"""
    return await call_nemotron(modality="code", input=spec)

async def orchestrate(image: str, audio: str) -> str:
    # 並列実行してスループットを最大化
    vision_result, audio_result = await asyncio.gather(
        vision_agent(image),
        audio_agent(audio)
    )
    combined_spec = f"画像分析: {vision_result}\n音声内容: {audio_result}"
    return await code_agent(combined_spec)

他オープンモデルとの比較

モデル	パラメータ	ライセンス	マルチモーダル	特長
Nemotron 3 Nano Omni	30B/3B活性	Apache 2.0	✅	速度・マルチエージェント
Llama 4 Scout	109B/17B活性	Llama Community	✅ (画像のみ)	10Mコンテキスト
Gemma 4	27B Dense	Apache 2.0	✅	256Kコンテキスト
DeepSeek-V4 Flash	未公開/MoE	商用制限あり	❌	コスト効率

Nemotron 3 Nano OmniはApache 2.0で完全商用利用可能かつ音声対応という点で、現時点では最もユースケースが広いオープンオムニモーダルモデルの一つだ。

現時点での注意点

Super/Ultraは未リリース: Nano Omniは3サイズ展開の最初のモデルで、より大規模なSuperとUltraは2026年前半リリース予定だが正確な日程は未定
ベンチマークはNVIDIA公式値: 独立した第三者評価はまだ少ない（本記事執筆時点）
音声モダリティの制限: 一部パートナーAPIでは音声入力が利用不可の場合がある。build.nvidia.comでの利用が最も機能がそろっている

まとめ

NVIDIA Nemotron 3 Nano OmniはMoEによる推論効率化とApache 2.0ライセンスを組み合わせた、現時点で最も実用的なオープンオムニモーダルモデルの一つだ。マルチエージェントシステムの中核モデルとして、またエッジAI推論の基盤として有力な選択肢となる。

S	公式ソース確認済み
A	成功実績多数・失敗例少数
B	賛否両論
C	動作未確認・セキュリティリスク高
Z	個人所感