20倍壓縮奇跡！NVIDIA新黑科技KVTC讓大模型“瘦身”成功

時(shí)間：2026-03-23 14:02:23

關(guān)鍵字： NVIDIA AMD

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]3月22日消息，NVIDIA研究人員推出一項(xiàng)全新技術(shù)KVTC(KV快取轉(zhuǎn)換編碼)，能把大型語(yǔ)言模型(LLM)追蹤對(duì)話歷史的內(nèi)存用量，最高縮減20倍，而且不用修改模型本身。

3月22日消息，NVIDIA研究人員推出一項(xiàng)全新技術(shù)KVTC(KV快取轉(zhuǎn)換編碼)，能把大型語(yǔ)言模型(LLM)追蹤對(duì)話歷史的內(nèi)存用量，最高縮減20倍，而且不用修改模型本身。

這一突破有望解決大型語(yǔ)言模型長(zhǎng)對(duì)話推理時(shí)的內(nèi)存不夠用問(wèn)題，大大降低企業(yè)使用AI的硬件成本，同時(shí)還能把模型首次生成回應(yīng)的時(shí)間，最高提速8倍。

簡(jiǎn)單來(lái)說(shuō)，KVTC技術(shù)的核心就是壓縮大型語(yǔ)言模型背后的KV緩存——它相當(dāng)于AI模型的“短期記憶”。我們可以把KV緩存理解成學(xué)生記筆記：模型處理對(duì)話時(shí)，會(huì)把關(guān)鍵信息(也就是Key和Value)記下來(lái)，下次生成回應(yīng)時(shí)，不用從頭重新計(jì)算整段對(duì)話，響應(yīng)速度就能大幅提升。

但問(wèn)題是，對(duì)話越長(zhǎng)，這份“筆記”就越大，甚至?xí)蛎浀綆讉€(gè)GB，占用大量GPU內(nèi)存，反而拖慢模型運(yùn)行、限制其處理能力。

NVIDIA資深深度學(xué)習(xí)工程師Adrian Lancucki表示：“大型語(yǔ)言模型進(jìn)行推論時(shí)，性能瓶頸往往不在運(yùn)算能力，而在GPU內(nèi)存。”那些暫時(shí)不用的KV緩存，會(huì)一直占用寶貴的GPU資源，逼得系統(tǒng)只能把它們轉(zhuǎn)移到CPU內(nèi)存或硬盤(pán)里，這樣不僅會(huì)增加數(shù)據(jù)傳輸?shù)呢?fù)擔(dān)，還可能出現(xiàn)新的卡頓問(wèn)題，這些額外成本最終也會(huì)體現(xiàn)在企業(yè)的使用費(fèi)用中。

和現(xiàn)有壓縮技術(shù)相比，KVTC沒(méi)有那些明顯的局限，它借鑒了我們熟悉的JPEG圖片壓縮思路，通過(guò)“主成分分析、自適應(yīng)量化、熵編碼”三個(gè)簡(jiǎn)單步驟，就能實(shí)現(xiàn)高效壓縮。

更方便的是，這項(xiàng)技術(shù)不用改動(dòng)模型的核心設(shè)置和代碼，屬于“非侵入式”設(shè)計(jì)，企業(yè)拿來(lái)就能快速部署。它的核心優(yōu)勢(shì)是，能抓住KV緩存“數(shù)據(jù)高度相關(guān)”的特點(diǎn)，在保留關(guān)鍵信息的同時(shí)，去掉冗余數(shù)據(jù)，而且解壓時(shí)可以分塊、逐層進(jìn)行，不會(huì)影響模型實(shí)時(shí)回應(yīng)。

多輪測(cè)試顯示，KVTC的表現(xiàn)遠(yuǎn)超現(xiàn)有主流方法。在參數(shù)量從15億到700億的多種模型(包括Llama 3系列、R1-Qwen 2.5等)上，即便將內(nèi)存壓縮20倍，模型準(zhǔn)確率也幾乎不受影響，損失不到1%，與未壓縮時(shí)相差無(wú)幾;而傳統(tǒng)壓縮方法僅壓縮5倍，就會(huì)出現(xiàn)明顯的準(zhǔn)確率下降。