谷歌研究推出TurboQuant壓縮演算法，優化LLM推理效率

MMetaEra

2026年03月25日 15:57

3 月 26 日（UTC+8），谷歌研究（Google Research）近日宣佈推出名為TurboQuant的新型壓縮演算法。該演算法旨在優化大語言模型（LLM）的推理效率，據稱可將LLM的鍵值（key-value）快取記憶體佔用減少至少6倍，推理速度提升高達8倍，並且實現了零精度損失。文中將該技術描述為“重新定義AI效率”。 [InFoQ]