20倍壓縮奇跡!NVIDIA新黑科技KVTC讓大模型“瘦身”成功
3月22日消息,NVIDIA研究人員推出一項(xiàng)全新技術(shù)KVTC(KV快取轉(zhuǎn)換編碼),能把大型語(yǔ)言模型(LLM)追蹤對(duì)話歷史的內(nèi)存用量,最高縮減20倍,而且不用修改模型本身。
這一突破有望解決大型語(yǔ)言模型長(zhǎng)對(duì)話推理時(shí)的內(nèi)存不夠用問(wèn)題,大大降低企業(yè)使用AI的硬件成本,同時(shí)還能把模型首次生成回應(yīng)的時(shí)間,最高提速8倍。
簡(jiǎn)單來(lái)說(shuō),KVTC技術(shù)的核心就是壓縮大型語(yǔ)言模型背后的KV緩存——它相當(dāng)于AI模型的“短期記憶”。我們可以把KV緩存理解成學(xué)生記筆記:模型處理對(duì)話時(shí),會(huì)把關(guān)鍵信息(也就是Key和Value)記下來(lái),下次生成回應(yīng)時(shí),不用從頭重新計(jì)算整段對(duì)話,響應(yīng)速度就能大幅提升。
但問(wèn)題是,對(duì)話越長(zhǎng),這份“筆記”就越大,甚至?xí)蛎浀綆讉€(gè)GB,占用大量GPU內(nèi)存,反而拖慢模型運(yùn)行、限制其處理能力。
NVIDIA資深深度學(xué)習(xí)工程師Adrian Lancucki表示:“大型語(yǔ)言模型進(jìn)行推論時(shí),性能瓶頸往往不在運(yùn)算能力,而在GPU內(nèi)存。”那些暫時(shí)不用的KV緩存,會(huì)一直占用寶貴的GPU資源,逼得系統(tǒng)只能把它們轉(zhuǎn)移到CPU內(nèi)存或硬盤(pán)里,這樣不僅會(huì)增加數(shù)據(jù)傳輸?shù)呢?fù)擔(dān),還可能出現(xiàn)新的卡頓問(wèn)題,這些額外成本最終也會(huì)體現(xiàn)在企業(yè)的使用費(fèi)用中。
和現(xiàn)有壓縮技術(shù)相比,KVTC沒(méi)有那些明顯的局限,它借鑒了我們熟悉的JPEG圖片壓縮思路,通過(guò)“主成分分析、自適應(yīng)量化、熵編碼”三個(gè)簡(jiǎn)單步驟,就能實(shí)現(xiàn)高效壓縮。
更方便的是,這項(xiàng)技術(shù)不用改動(dòng)模型的核心設(shè)置和代碼,屬于“非侵入式”設(shè)計(jì),企業(yè)拿來(lái)就能快速部署。它的核心優(yōu)勢(shì)是,能抓住KV緩存“數(shù)據(jù)高度相關(guān)”的特點(diǎn),在保留關(guān)鍵信息的同時(shí),去掉冗余數(shù)據(jù),而且解壓時(shí)可以分塊、逐層進(jìn)行,不會(huì)影響模型實(shí)時(shí)回應(yīng)。
多輪測(cè)試顯示,KVTC的表現(xiàn)遠(yuǎn)超現(xiàn)有主流方法。在參數(shù)量從15億到700億的多種模型(包括Llama 3系列、R1-Qwen 2.5等)上,即便將內(nèi)存壓縮20倍,模型準(zhǔn)確率也幾乎不受影響,損失不到1%,與未壓縮時(shí)相差無(wú)幾;而傳統(tǒng)壓縮方法僅壓縮5倍,就會(huì)出現(xiàn)明顯的準(zhǔn)確率下降。
另外,在H100 GPU上處理8000個(gè)Token的提示時(shí),不使用KVTC需要3秒才能生成第一個(gè)回應(yīng),使用后僅需380毫秒,提速整整8倍。
需要注意的是,KVTC更適合長(zhǎng)對(duì)話、多輪互動(dòng)場(chǎng)景,比如編程助手、迭代式代理推理等,若對(duì)話較短,很難發(fā)揮其壓縮價(jià)值。
目前,NVIDIA正計(jì)劃將這項(xiàng)技術(shù)整合進(jìn)Dynamo框架的KV塊管理器,使其能與vLLM等主流開(kāi)源推論引擎兼容。
業(yè)內(nèi)人士認(rèn)為,隨著大型語(yǔ)言模型可處理的對(duì)話長(zhǎng)度不斷增加,KVTC這類標(biāo)準(zhǔn)化壓縮技術(shù),未來(lái)可能會(huì)像視頻壓縮一樣普及,助力AI更廣泛地落地應(yīng)用。





