谷歌研究院(Google Research)確實于美東時間3月25日(周二)正式發(fā)布了名為 TurboQuant 的全新AI內(nèi)存壓縮算法。
這項技術(shù)旨在解決大語言模型在推理過程中面臨的內(nèi)存瓶頸問題,因其突破性的性能表現(xiàn),在科技圈和資本市場都引起了巨大反響。
極致壓縮,內(nèi)存占用銳減:該算法通過創(chuàng)新的向量量化技術(shù),能夠?qū)?/span>AI推理時關(guān)鍵的“鍵值緩存”(KV Cache)內(nèi)存占用壓縮至原來的六分之一(即減少約83%)。
推理速度飆升:在英偉達(dá)H100 GPU上的測試顯示,采用TurboQuant技術(shù)后,AI的推理速度最高可以提升8倍。
零精度損失:最關(guān)鍵的突破在于,這項技術(shù)能夠在實現(xiàn)極致壓縮的同時,保證模型在“大海撈針”等長上下文測試中實現(xiàn)零精度損失,不影響AI的回答質(zhì)量。
無需重新訓(xùn)練:TurboQuant的一大優(yōu)勢是其“免訓(xùn)練”(training-free)特性。這意味著現(xiàn)有的AI模型(如Gemma、Mistral等)無需進(jìn)行耗時的重新訓(xùn)練或微調(diào),即可直接應(yīng)用該技術(shù),極大地降低了部署和升級成本。
他們計劃在下個月的ICLR 2026會議上展示他們的研究成果,以及展示實現(xiàn)這種壓縮的兩種方法:量化方法PolarQuant和名為QJL的訓(xùn)練和優(yōu)化方法。





