信頼度ランク
| S | 公式ソース確認済み |
| A | 成功実績多数・失敗例少数 |
| B | 賛否両論 |
| C | 動作未確認・セキュリティリスク高 |
| Z | 個人所感 |
Qwen 3.6 27B——RTX 4090一枚でフラッグシップ級コーディング、Apache 2.0・262Kコンテキストでローカル推論の限界を更新
Alibabaが2026年4月22日にリリースしたQwen 3.6 27Bは、単一RTX 4090(24GB)で動作しながらSWE-bench VerifiedでClaude Opus 4.6に4ポイント差に迫る。Apache 2.0ライセンス・262Kコンテキスト・201言語対応のマルチモーダルモデルで、ローカルコーディングエージェントの最有力候補になった。
一言結論
Qwen 3.6 27BはRTX 4090一枚(Q4_K_M量子化で16〜18GB)で動作し、SWE-bench VerifiedでClaude Opus 4.6に4ポイント差。Apache 2.0で商用利用・ファインチューニング可能。262Kコンテキストでコードリポジトリ全体を処理できる、ローカルコーディングエージェントの現実解だ。
なぜQwen 3.6 27Bが重要なのか
オープンソースLLMの「フラッグシップ」は長らく、数百億〜1兆パラメータ規模のモデルとMixture-of-Experts(MoE)アーキテクチャの独壇場だった。DeepSeek V4-ProやKimi K2.6はいずれも1T超のパラメータを持ち、推論にGPUクラスタが必要だ。
Qwen 3.6 27Bはそこに別の答えを示した。
27Bのdenseモデルで、コーディングベンチマークのフラッグシップ性能を、コンシューマGPU1枚で実現する。
2026年4月22日にAlibaba Qwen TeamがリリースしたQwen 3.6 27Bは、前世代フラッグシップのQwen3.5-397B(総パラメータ397B・MoE)をすべての主要コーディングベンチマークで上回りながら、RTX 4090(24GB VRAM)1枚で動く。
モデル仕様
| 項目 | Qwen 3.6 27B |
|---|---|
| パラメータ数 | 270億(dense) |
| アーキテクチャ | Dense(MoEではない) |
| コンテキストウィンドウ | 262,144トークン(262K) |
| マルチモーダル | テキスト・画像・動画(入力) |
| 対応言語 | 201言語・方言 |
| ライセンス | Apache 2.0 |
| 最小VRAM(Q4_K_M) | ≈16〜18 GB |
| リリース日 | 2026年4月22日 |
MoEではなくdenseアーキテクチャを選択したことで、推論ロジックがシンプルになり、ローカル実行ツール(llama.cpp・Ollama)との相性が良い。
ベンチマーク
| ベンチマーク | Qwen 3.6 27B | Claude Opus 4.6 | Qwen3.5-397B(前世代) |
|---|---|---|---|
| SWE-bench Verified | 76.4% | 80.4% | 73.1% |
| Aider Polyglot | 74.2% | 76.8% | 71.3% |
| LiveCodeBench | 79.6% | 88.8% | 74.5% |
| HumanEval | 97.6% | 95.1% | 96.8% |
Claude Opus 4.6に対してSWE-benchmark Verifiedで4ポイント差。これは400B級MoEを超え、Claudeに肉薄するコーディング性能を27Bのdense・コンシューマGPU1枚で実現したことを意味する。
ローカル実行手順
Ollama(最速セットアップ)
# Ollamaをインストール済みの場合
ollama pull qwen3.6:27b
# チャットモードで確認
ollama run qwen3.6:27b "Implement a Redis-backed rate limiter in Python"
# APIサーバーとして起動(OpenAI互換)
ollama serve
# → http://localhost:11434 でOpenAI互換エンドポイントが起動
OpenAI互換エンドポイントのため、LangChain・LlamaIndex・OpenAI SDKをそのまま向け先変更するだけで動く。
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # ダミー(ローカルなので認証不要)
)
response = client.chat.completions.create(
model="qwen3.6:27b",
messages=[
{"role": "system", "content": "You are an expert software engineer."},
{"role": "user", "content": "Review this Python function for security issues:\n\ndef execute_query(user_input):\n conn.execute(f'SELECT * FROM users WHERE name = {user_input}')"},
],
)
print(response.choices[0].message.content)
llama.cpp(GGUF・量子化コントロール)
# GGUF形式をHugging Faceからダウンロード
huggingface-cli download Qwen/Qwen3.6-27B-GGUF \
--include "qwen3.6-27b-q4_k_m.gguf"
# RTX 4090(24GB)でのフルGPUオフロード
./llama.cpp/llama-cli \
-m qwen3.6-27b-q4_k_m.gguf \
-n 4096 \
--ctx-size 32768 \
-ngl 35 \ # GPUにオフロードするレイヤー数(全層)
--threads 8 \
-p "Refactor the following code to be more idiomatic Rust:"
Q4_K_M量子化のVRAM消費
Qwen 3.6 27B のVRAM消費(Q4_K_M):
モデル重み: ≈ 16.5 GB
KVキャッシュ:
ctx_size=8K → ≈ 0.8 GB 合計 ≈ 17.3 GB ✅ RTX 4090(24GB)
ctx_size=32K → ≈ 3.1 GB 合計 ≈ 19.6 GB ✅ RTX 4090(24GB)
ctx_size=64K → ≈ 6.2 GB 合計 ≈ 22.7 GB ✅ RTX 4090(24GB)
ctx_size=128K→ ≈ 12.4 GB 合計 ≈ 28.9 GB ❌ RTX 4090では不足
Macユーザー:
M3 Ultra 192GB → 128Kコンテキストも余裕で動作
※KVキャッシュにTurboQuantを適用すれば128Kも24GB GPUで実現できる可能性がある(実験的)。
262Kコンテキストで何ができるか
262,144トークンはプロジェクト規模によってはコードリポジトリ全体を1プロンプトに収められる。
参考:主要リポジトリのトークン換算(概算)
小規模SaaSプロジェクト(〜5万行): ≈ 60K トークン ✅ 余裕
中規模OSS(Rails相当・20万行): ≈ 240K トークン ✅ ギリギリ収まる
大規模モノレポ(100万行+): ≈ 1.2M トークン ❌ 分割が必要
リポジトリ全体の「大規模リファクタリング」「依存関係の分析」「横断的なバグ調査」などをローカルかつプライベートに実行できる。
Apache 2.0ライセンスの実践的意味
Apache 2.0の許可事項:
✅ 商用利用(製品に組み込む)
✅ ファインチューニング・追加学習
✅ 改変版の配布
✅ プロプライエタリな製品への組み込み
✅ クラウドサービスとして提供
❌ 原著作権表示の省略(表示義務あり)
❌ Alibabaの商標・ブランドの使用(別途許可必要)
MIT Licenseとほぼ同等の自由度で、エンタープライズ向けの製品組み込みも法的にクリア。
注意点・落とし穴
❌ コンテキスト全体をRAM/VRAMに保持する必要がある
❌ 悪い例:ナイーブな長文処理
# 262Kトークン全部を一度に処理しようとすると...
# → RTX 4090でも128K超はVRAM不足になる
with open("huge_codebase.txt") as f:
text = f.read() # 300K tokens相当
response = llm.invoke(text) # OOM Error
✅ 良い例:コンテキスト戦略を使う
# チャンク化 or ベクトルDB + RAGで関連部分のみ投入
relevant_chunks = retriever.invoke("authentication flow")
response = llm.invoke(relevant_chunks) # 必要な部分だけ
❌ 動画入力はAPIモードが前提
マルチモーダル(動画入力)機能はllama.cppのローカル実行ではまだ完全サポートされていない。動画を使う場合はQwen API経由が現実的。
地政学リスク(API利用時)
本番でQwen APIを使う場合、DeepSeek V4と同様に中国企業のAPIにデータを送信することになる。機密コード・個人データのAPI経由処理は法務チェック必須。ローカル実行ならこの問題はない。
まとめ
Qwen 3.6 27Bは「フラッグシップ性能をコンシューマGPUで」という命題をdenseアーキテクチャで実現した。ローカルコーディングエージェントを構築したい開発者にとって、現時点で最も実用的な選択肢の一つだ。
Apache 2.0・262Kコンテキスト・マルチモーダル対応という組み合わせは、プロプライエタリなAPIへの依存を避けてプライベートにLLMを動かしたいプロジェクトの要件を満たす。