SJ blog
ai
B

信頼度ランク

S 公式ソース確認済み
A 成功実績多数・失敗例少数
B 賛否両論
C 動作未確認・セキュリティリスク高
Z 個人所感

Llama 4 Scout実践ガイド:10Mトークンコンテキストの現実と、ローカル・API運用の使い分け

Metaが4月5日にリリースしたLlama 4 Scout(MoE 17B/109B、Llama Community License)は10Mトークンコンテキストを謳うが、実際の制約は多い。$0.08/M入力トークンのAPI運用と、Apple Silicon・H100でのローカル展開の現実的な限界を整理する。

一言結論

Llama 4 Scoutの10Mコンテキストは理論上の上限であり、10M tokens時の初回トークン生成待ち時間はH100でも60秒超。実用的な上限はハードウェアに依存し、16GB GPUなら4K〜8K、64GB M3 Maxなら32K、H100×2なら最大1M前後が快適な運用範囲だ。コードベース全体を一度に入力するユースケースなど、長大な文脈が必要な処理はAPIが現実的な選択肢。

Llama 4 Scoutとは

2026年4月5日、MetaはLlama 4シリーズをリリースした。Llama 4 Scoutはその中の汎用エントリモデルで、以下の特徴を持つ。

パラメータ:    17B(アクティブ)/ 109B(総計・MoE)
アーキテクチャ: Mixture of Experts(MoE)、16エキスパート
コンテキスト:   10,000,000トークン(業界最大)
ライセンス:     Meta Llama Community License(商用利用可)
API価格:       $0.08/M入力トークン(最安クラス)

**Mixture of Experts(MoE)**とは、推論時に全パラメータを使わず、入力トークンに応じて16のエキスパートのうち少数を選択的に活性化するアーキテクチャだ。109Bのパラメータを持ちながら推論当たりの計算量は17B相当に抑えられているため、同規模のDenseモデルより高速・低コストで動作する。

Llama 4 Scout(MoE):
  総パラメータ 109B → 推論時アクティブ 17B(≈ 15%)
  H100 x1 で動作(INT4: 55GB VRAM)

Llama 3 70B(Dense):
  全パラメータ 70B → 推論時アクティブ 70B(100%)
  H100 x2〜4 が必要(BF16: ≈ 140GB VRAM)

10Mトークンコンテキストの現実

「10Mトークン」という数字は業界最大で、コードリポジトリ全体や複数の大規模文書をコンテキストに入れることを可能にする。ただし実際の運用ではハードウェアとレイテンシの制約が大きく影響する。

トークン数の感覚

10,000,000トークン ≈ 7,500ページ(A4サイズ文書)
                   ≈ 2,500,000行のコード
                   ≈ 40時間分のトランスクリプト

コードベース全体をコンテキストに入れる用途では、エンタープライズ規模のモノリスも収まる計算だ。ただし「収まる」と「実用的」は別の話になる。

レイテンシの現実

コンテキスト長 vs 最初のトークン生成待ち時間(H100×1推定):

  32K  →  約 2秒(快適)
  128K →  約 8秒(許容範囲)
  1M   →  約 60秒(バッチ処理向き)
  10M  →  約 600秒超(本番リアルタイム用途には不適)

10Mトークンはリアルタイム会話型アプリには使えない。一方で、夜間バッチ処理・非同期レポート生成・オフライン分析では問題にならない。

ハードウェア別の実用上限

ハードウェア         VRAM        快適なコンテキスト上限
──────────────────────────────────────────────
RTX 4090            24 GB       8K〜16K tokens
Mac M3 Max 64GB     64 GB (統合) 32K〜65K tokens
Mac M2 Ultra 192GB  192 GB(統合) 128K〜256K tokens
H100 SXM 80GB       80 GB       256K〜1M tokens
H100 × 2            160 GB      1M〜2M tokens
8 × H100            640 GB      〜1M tokens @ 10M context

注意: 上記はQ4_K_M / INT4量子化の目安であり、モデル実装・バッチサイズ・精度設定により大きく変わる。

ローカル実行:Ollama / llama.cpp

Ollamaでの起動(最もシンプル)

# Llama 4 Scout をOllamaで実行
ollama run llama4:scout

# 特定のコンテキスト長を指定して実行
ollama run llama4:scout --ctx-size 32768

# APIサーバーとして起動
ollama serve
# 別ターミナルで:
curl http://localhost:11434/api/chat \
  -d '{
    "model": "llama4:scout",
    "messages": [{"role": "user", "content": "このコードの問題点は?\n\n[コードをここに貼る]"}]
  }'

Apple Silicon(MLX)での最適化実行

Mac上でScoutを快適に使うにはApple SiliconネイティブのMLXスタックが有効だ。

# mlx-lmをインストール
pip install mlx-lm

# Hugging FaceからMLX量子化モデルを取得して実行
mlx_lm.generate \
  --model mlx-community/Llama-4-Scout-17B-16E-Instruct-4bit \
  --prompt "このコードをレビューして:" \
  --max-tokens 2048 \
  --context-length 32768

64GB M3 Maxでの実測目安:

Q4量子化:  モデルロード ≈ 45GB / 32Kコンテキスト = 快適
Q8量子化:  モデルロード ≈ 90GB → 64GBでは不可

vLLMでのサービング(本番向け)

from vllm import LLM, SamplingParams

llm = LLM(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    max_model_len=131072,       # 128K まで(メモリ依存)
    tensor_parallel_size=2,     # H100 x2 の場合
    dtype="bfloat16",
    enable_chunked_prefill=True, # 長コンテキスト処理を効率化
)

sampling_params = SamplingParams(
    temperature=0.7,
    max_tokens=2048,
)

outputs = llm.generate(
    ["このリポジトリのCHANGELOGを要約して:\n\n" + changelog_content],
    sampling_params,
)
print(outputs[0].outputs[0].text)

API経由での利用:$0.08/M入力でコスト計算

ローカル実行に必要なハードウェアを持たない場合はAPIが現実解だ。

from openai import OpenAI

# TogetherAI経由(OpenAI互換エンドポイント)
client = OpenAI(
    api_key="YOUR_TOGETHER_API_KEY",
    base_url="https://api.together.xyz/v1",
)

response = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=[
        {"role": "user", "content": "このコードをレビューして:\n\n" + code}
    ],
    max_tokens=4096,
)
print(response.choices[0].message.content)

コスト例($0.08/M入力・$0.24/M出力の場合):

タスク                         入力    出力    コスト/回
───────────────────────────────────────────────────
チャット回答(〜1K tokens入力)  1K      0.5K   $0.0001未満
コードレビュー(〜10K tokens)   10K     2K     $0.0013
ドキュメント要約(〜128K tokens) 128K   4K     $0.0112
リポジトリ分析(〜500K tokens)  500K   8K     $0.042

DeepSeek V4との比較:DeepSeek V4-Proのキャッシュヒット時は$0.01/M入力とさらに安いが、APIの利用規約と信頼性要件を踏まえた選択が必要だ。

既存モデルとのベンチマーク比較

モデルSWE-bench Verifiedコンテキスト入力単価
Claude Opus 4.782.0%200K$15/M
GPT-5.582.7%128K$5/M
Llama 4 Maverick〜55%(推定)1M$0.27/M
Llama 4 Scout〜38%(推定)10M$0.08/M
Qwen 3.6 27B〜56%(推定)262Kセルフホスト

SWE-bench(コーディング難題)ではトップクラスには及ばないが、コストパフォーマンスと超長コンテキストにおいてScoutは独自のポジションを占める。

実用的なユースケース

✅ Scout が輝くユースケース

# 1. 大規模コードベースの一括分析(バッチ処理)
with open("entire_codebase.txt") as f:
    code = f.read()  # 〜2M tokens のモノリス

response = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=[{"role": "user", "content": f"このコードベースのアーキテクチャの問題点を列挙して:\n\n{code}"}],
)
# 2. 長文ドキュメントの要約(法令・契約書・論文群)
long_doc = open("entire_legal_docs.txt").read()  # 100K〜500K tokens

# RAGなしで全文を直接投入できる
# 3. 多言語コードの変換(大規模移行プロジェクト)
legacy_java_system = load_all_java_files()  # 〜50K tokens
prompt = f"このJavaコードをPythonに移行して:\n{legacy_java_system}"

❌ Scout が向いていないユースケース

- リアルタイム会話チャット(10M context時のレイテンシが60秒超)
- 精密なコーディング(SWE-bench 38%はClaude比で見劣りする)
- 16GB GPU環境での快適なローカル実行

注意点・未確認情報

  • SWE-bench数値: Scoutの公式SWE-bench Verified数値はMeta未公表のため、上記は推定値
  • 10M tokenの実レイテンシ: ハードウェア・バッチサイズ・vLLM設定で大幅に変わる
  • ライセンス: Meta Llama Community Licenseは月間アクティブユーザー7億人超の企業には別途ライセンス契約が必要
  • 精度の崖: Scoutは>99%accuracy at 10M tokensと発表されているが、どのタスクで計測したかは明示されていない

まとめ

Llama 4 ScoutはMoEアーキテクチャと10Mコンテキストを組み合わせた独自のポジションを持つが、10Mコンテキストはリアルタイム用途には使えず、実用的な上限はハードウェア依存だ。$0.08/M入力のAPI経由で大規模バッチ分析に使うか、64GB以上のMacやH100でローカル実行して32K〜256Kのコンテキストを活用するのが現実的な戦略となる。

参考リンク