谷歌研究推出TurboQuant壓縮演算法,優化LLM推理效率MMetaEra2026年03月25日 15:573 月 26 日(UTC+8),谷歌研究(Google Research)近日宣佈推出名為TurboQuant的新型壓縮演算法。該演算法旨在優化大語言模型(LLM)的推理效率,據稱可將LLM的鍵值(key-value)快取記憶體佔用減少至少6倍,推理速度提升高達8倍,並且實現了零精度損失。 文中將該技術描述為“重新定義AI效率”。 [InFoQ]