SJ blog
ai
A

信頼度ランク

S 公式ソース確認済み
A 成功実績多数・失敗例少数
B 賛否両論
C 動作未確認・セキュリティリスク高
Z 個人所感

NVIDIA Nemotron 3 Nano Omni——Apache 2.0・30BパラメータのオープンマルチモーダルモデルでエッジAIエージェントを構築する

2026年4月28日、NVIDIAがNemotron 3 Nano Omniをリリース。視覚・音声・テキスト・コードを単一モデルで処理するMoEアーキテクチャ(30B総量/3Bアクティブ)でApache 2.0ライセンス。Nemotron 2比4倍のスループット。エッジAIエージェントへの実装方法を解説する。

一言結論

NVIDIA Nemotron 3 Nano Omniはビジョン・音声・テキスト・コードを単一モデルで扱うMoEアーキテクチャ(総量30B/推論時3Bアクティブ)のオープンマルチモーダルモデル。Apache 2.0ライセンスで商用利用自由、Nemotron 2比4倍スループットでマルチエージェントシステムの中核モデルとして有力候補。HuggingFace/OpenRouter/NVIDIAビルドサイトから即日利用可能。

Nemotron 3 Nano Omni とは

2026年4月28日、NVIDIAは Nemotron 3 Nano Omni をリリースした。Nemotronシリーズ最新モデルで、視覚・音声・テキスト・コードを単一のモデルで処理できる「オムニモーダル」設計を採用している。

Nemotron 3 Nano Omni
├─ アーキテクチャ: Hybrid Latent MoE (Mixture-of-Experts)
├─ 総パラメータ:   30B
├─ 推論アクティブ: 3B(全体の10%)
├─ モダリティ:     テキスト / 画像 / 音声 / コード
├─ ライセンス:     Apache 2.0(商用利用自由)
└─ 入手先:         HuggingFace / OpenRouter / build.nvidia.com

「Nano」という名称が示すとおり、エッジデバイスやリソース制約環境での動作を主目的に設計されている。Nemotron 3シリーズにはNano・Super・Ultraの3サイズが予定されており、SuperとUltraは2026年前半リリース予定だ。


MoEアーキテクチャがエッジに有効な理由

Nemotron 3 Nano OmniはHybrid Latent MoEを採用している。推論時に30Bのパラメータをすべて使うのではなく、入力トークンの種類に応じて少数のエキスパートのみを活性化する。

通常のDenseモデル (例: 7Bモデル):
  入力トークン → 7Bパラメータを全部使う
  VRAM必要量: 14GB (BF16)

Nemotron 3 Nano Omni (MoE):
  入力トークン → 30B中3Bだけ活性化(動的に選択)
  VRAM必要量: ~6GB (INT4量子化時)

同等タスクでDenseモデルより高速・低消費電力で動作できるため、NVIDIA DGX Sparks(エッジAIワークステーション)RTX 4090搭載ラップトップでもローカル推論が現実的になる。


前世代比のパフォーマンス

NVIDIAの公式ベンチマークによれば、Nemotron 3 Nano Omniは前世代のNemotron 2 Nanoと比較して以下の改善を達成している。

指標Nemotron 2 NanoNemotron 3 Nano Omni
スループット(トークン/秒)基準値4倍
マルチエージェント並列処理業界最速クラス
マルチモーダル対応テキストのみ視覚+音声+コード

マルチエージェントシステムでの利用が特に効果的で、複数のサブエージェントが並列にNemotron 3を呼び出すシナリオでは従来モデルより圧倒的なスループットを発揮する。


実装例:マルチモーダルエージェントの構築

HuggingFace Transformersでの起動

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

model_id = "nvidia/Nemotron-3-Nano-Omni"

# INT4量子化でGPUメモリを節約
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    load_in_4bit=True,          # ~6GB VRAMで動作
    bnb_4bit_compute_dtype=torch.bfloat16,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)

テキスト+画像の同時処理

from PIL import Image
import requests

# 画像を読み込む
image = Image.open(requests.get("https://example.com/chart.png", stream=True).raw)

# マルチモーダルプロンプト
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image},
            {"type": "text", "text": "このグラフから異常値を特定して、Pythonでアラートを送るコードを書いて"}
        ]
    }
]

# 推論
outputs = model.generate(
    **tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device),
    max_new_tokens=512,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

OpenRouter API経由での利用(モデルを手元に置かない場合)

import openai

client = openai.OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sk-or-..."
)

response = client.chat.completions.create(
    model="nvidia/nemotron-3-nano-omni",
    messages=[
        {"role": "user", "content": "音声ファイルの文字起こし結果から要約を作成して"},
    ],
    max_tokens=1024,
)
print(response.choices[0].message.content)

マルチエージェントシステムでの活用パターン

Nemotron 3 Nano Omniが特に強みを発揮するのは、複数エージェントが分担して大タスクを実行するシステムだ。

# マルチエージェントオーケストレーターの例
# エージェント1: 画像分析(ビジョンモダリティ)
# エージェント2: 音声書き起こし(音声モダリティ)
# エージェント3: コード生成(コードモダリティ)

import asyncio

async def vision_agent(image_path: str) -> str:
    """画像を分析して構造化データを返す"""
    return await call_nemotron(modality="vision", input=image_path)

async def audio_agent(audio_path: str) -> str:
    """音声を書き起こして要約を返す"""
    return await call_nemotron(modality="audio", input=audio_path)

async def code_agent(spec: str) -> str:
    """仕様からコードを生成する"""
    return await call_nemotron(modality="code", input=spec)

async def orchestrate(image: str, audio: str) -> str:
    # 並列実行してスループットを最大化
    vision_result, audio_result = await asyncio.gather(
        vision_agent(image),
        audio_agent(audio)
    )
    combined_spec = f"画像分析: {vision_result}\n音声内容: {audio_result}"
    return await code_agent(combined_spec)

他オープンモデルとの比較

モデルパラメータライセンスマルチモーダル特長
Nemotron 3 Nano Omni30B/3B活性Apache 2.0速度・マルチエージェント
Llama 4 Scout109B/17B活性Llama Community✅ (画像のみ)10Mコンテキスト
Gemma 427B DenseApache 2.0256Kコンテキスト
DeepSeek-V4 Flash未公開/MoE商用制限ありコスト効率

Nemotron 3 Nano OmniはApache 2.0で完全商用利用可能かつ音声対応という点で、現時点では最もユースケースが広いオープンオムニモーダルモデルの一つだ。


現時点での注意点

  • Super/Ultraは未リリース: Nano Omniは3サイズ展開の最初のモデルで、より大規模なSuperとUltraは2026年前半リリース予定だが正確な日程は未定
  • ベンチマークはNVIDIA公式値: 独立した第三者評価はまだ少ない(本記事執筆時点)
  • 音声モダリティの制限: 一部パートナーAPIでは音声入力が利用不可の場合がある。build.nvidia.comでの利用が最も機能がそろっている

まとめ

NVIDIA Nemotron 3 Nano OmniはMoEによる推論効率化とApache 2.0ライセンスを組み合わせた、現時点で最も実用的なオープンオムニモーダルモデルの一つだ。マルチエージェントシステムの中核モデルとして、またエッジAI推論の基盤として有力な選択肢となる。


参考リンク