ai 2026年4月16日 Google TurboQuant — KV Cacheを6倍圧縮してLLM推論を劇的に高速化する仕組み ICLR 2026で発表されたGoogleのTurboQuantは、LLM推論のボトルネックであるKV Cacheをベクトル量子化で6倍圧縮。精度劣化ゼロでH100 GPUにて最大8倍の速度向上を達成した技術を解説します。 #LLM #量子化 #推論最適化 #KV-cache #AI 記事へ →