信頼度ランク
| S | 公式ソース確認済み |
| A | 成功実績多数・失敗例少数 |
| B | 賛否両論 |
| C | 動作未確認・セキュリティリスク高 |
| Z | 個人所感 |
NVIDIA Nemotron 3 Nano Omni——Apache 2.0・30BパラメータのオープンマルチモーダルモデルでエッジAIエージェントを構築する
2026年4月28日、NVIDIAがNemotron 3 Nano Omniをリリース。視覚・音声・テキスト・コードを単一モデルで処理するMoEアーキテクチャ(30B総量/3Bアクティブ)でApache 2.0ライセンス。Nemotron 2比4倍のスループット。エッジAIエージェントへの実装方法を解説する。
一言結論
NVIDIA Nemotron 3 Nano Omniはビジョン・音声・テキスト・コードを単一モデルで扱うMoEアーキテクチャ(総量30B/推論時3Bアクティブ)のオープンマルチモーダルモデル。Apache 2.0ライセンスで商用利用自由、Nemotron 2比4倍スループットでマルチエージェントシステムの中核モデルとして有力候補。HuggingFace/OpenRouter/NVIDIAビルドサイトから即日利用可能。
Nemotron 3 Nano Omni とは
2026年4月28日、NVIDIAは Nemotron 3 Nano Omni をリリースした。Nemotronシリーズ最新モデルで、視覚・音声・テキスト・コードを単一のモデルで処理できる「オムニモーダル」設計を採用している。
Nemotron 3 Nano Omni
├─ アーキテクチャ: Hybrid Latent MoE (Mixture-of-Experts)
├─ 総パラメータ: 30B
├─ 推論アクティブ: 3B(全体の10%)
├─ モダリティ: テキスト / 画像 / 音声 / コード
├─ ライセンス: Apache 2.0(商用利用自由)
└─ 入手先: HuggingFace / OpenRouter / build.nvidia.com
「Nano」という名称が示すとおり、エッジデバイスやリソース制約環境での動作を主目的に設計されている。Nemotron 3シリーズにはNano・Super・Ultraの3サイズが予定されており、SuperとUltraは2026年前半リリース予定だ。
MoEアーキテクチャがエッジに有効な理由
Nemotron 3 Nano OmniはHybrid Latent MoEを採用している。推論時に30Bのパラメータをすべて使うのではなく、入力トークンの種類に応じて少数のエキスパートのみを活性化する。
通常のDenseモデル (例: 7Bモデル):
入力トークン → 7Bパラメータを全部使う
VRAM必要量: 14GB (BF16)
Nemotron 3 Nano Omni (MoE):
入力トークン → 30B中3Bだけ活性化(動的に選択)
VRAM必要量: ~6GB (INT4量子化時)
同等タスクでDenseモデルより高速・低消費電力で動作できるため、NVIDIA DGX Sparks(エッジAIワークステーション)やRTX 4090搭載ラップトップでもローカル推論が現実的になる。
前世代比のパフォーマンス
NVIDIAの公式ベンチマークによれば、Nemotron 3 Nano Omniは前世代のNemotron 2 Nanoと比較して以下の改善を達成している。
| 指標 | Nemotron 2 Nano | Nemotron 3 Nano Omni |
|---|---|---|
| スループット(トークン/秒) | 基準値 | 4倍 |
| マルチエージェント並列処理 | — | 業界最速クラス |
| マルチモーダル対応 | テキストのみ | 視覚+音声+コード |
マルチエージェントシステムでの利用が特に効果的で、複数のサブエージェントが並列にNemotron 3を呼び出すシナリオでは従来モデルより圧倒的なスループットを発揮する。
実装例:マルチモーダルエージェントの構築
HuggingFace Transformersでの起動
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch
model_id = "nvidia/Nemotron-3-Nano-Omni"
# INT4量子化でGPUメモリを節約
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
load_in_4bit=True, # ~6GB VRAMで動作
bnb_4bit_compute_dtype=torch.bfloat16,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
テキスト+画像の同時処理
from PIL import Image
import requests
# 画像を読み込む
image = Image.open(requests.get("https://example.com/chart.png", stream=True).raw)
# マルチモーダルプロンプト
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": image},
{"type": "text", "text": "このグラフから異常値を特定して、Pythonでアラートを送るコードを書いて"}
]
}
]
# 推論
outputs = model.generate(
**tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device),
max_new_tokens=512,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
OpenRouter API経由での利用(モデルを手元に置かない場合)
import openai
client = openai.OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sk-or-..."
)
response = client.chat.completions.create(
model="nvidia/nemotron-3-nano-omni",
messages=[
{"role": "user", "content": "音声ファイルの文字起こし結果から要約を作成して"},
],
max_tokens=1024,
)
print(response.choices[0].message.content)
マルチエージェントシステムでの活用パターン
Nemotron 3 Nano Omniが特に強みを発揮するのは、複数エージェントが分担して大タスクを実行するシステムだ。
# マルチエージェントオーケストレーターの例
# エージェント1: 画像分析(ビジョンモダリティ)
# エージェント2: 音声書き起こし(音声モダリティ)
# エージェント3: コード生成(コードモダリティ)
import asyncio
async def vision_agent(image_path: str) -> str:
"""画像を分析して構造化データを返す"""
return await call_nemotron(modality="vision", input=image_path)
async def audio_agent(audio_path: str) -> str:
"""音声を書き起こして要約を返す"""
return await call_nemotron(modality="audio", input=audio_path)
async def code_agent(spec: str) -> str:
"""仕様からコードを生成する"""
return await call_nemotron(modality="code", input=spec)
async def orchestrate(image: str, audio: str) -> str:
# 並列実行してスループットを最大化
vision_result, audio_result = await asyncio.gather(
vision_agent(image),
audio_agent(audio)
)
combined_spec = f"画像分析: {vision_result}\n音声内容: {audio_result}"
return await code_agent(combined_spec)
他オープンモデルとの比較
| モデル | パラメータ | ライセンス | マルチモーダル | 特長 |
|---|---|---|---|---|
| Nemotron 3 Nano Omni | 30B/3B活性 | Apache 2.0 | ✅ | 速度・マルチエージェント |
| Llama 4 Scout | 109B/17B活性 | Llama Community | ✅ (画像のみ) | 10Mコンテキスト |
| Gemma 4 | 27B Dense | Apache 2.0 | ✅ | 256Kコンテキスト |
| DeepSeek-V4 Flash | 未公開/MoE | 商用制限あり | ❌ | コスト効率 |
Nemotron 3 Nano OmniはApache 2.0で完全商用利用可能かつ音声対応という点で、現時点では最もユースケースが広いオープンオムニモーダルモデルの一つだ。
現時点での注意点
- Super/Ultraは未リリース: Nano Omniは3サイズ展開の最初のモデルで、より大規模なSuperとUltraは2026年前半リリース予定だが正確な日程は未定
- ベンチマークはNVIDIA公式値: 独立した第三者評価はまだ少ない(本記事執筆時点)
- 音声モダリティの制限: 一部パートナーAPIでは音声入力が利用不可の場合がある。
build.nvidia.comでの利用が最も機能がそろっている
まとめ
NVIDIA Nemotron 3 Nano OmniはMoEによる推論効率化とApache 2.0ライセンスを組み合わせた、現時点で最も実用的なオープンオムニモーダルモデルの一つだ。マルチエージェントシステムの中核モデルとして、またエッジAI推論の基盤として有力な選択肢となる。