日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁(yè) > 通信技術(shù) > 通信先鋒
[導(dǎo)讀]3月22日消息,NVIDIA研究人員推出一項(xiàng)全新技術(shù)KVTC(KV快取轉(zhuǎn)換編碼),能把大型語(yǔ)言模型(LLM)追蹤對(duì)話歷史的內(nèi)存用量,最高縮減20倍,而且不用修改模型本身。

322日消息,NVIDIA研究人員推出一項(xiàng)全新技術(shù)KVTC(KV快取轉(zhuǎn)換編碼),能把大型語(yǔ)言模型(LLM)追蹤對(duì)話歷史的內(nèi)存用量,最高縮減20倍,而且不用修改模型本身。

這一突破有望解決大型語(yǔ)言模型長(zhǎng)對(duì)話推理時(shí)的內(nèi)存不夠用問(wèn)題,大大降低企業(yè)使用AI的硬件成本,同時(shí)還能把模型首次生成回應(yīng)的時(shí)間,最高提速8倍。

簡(jiǎn)單來(lái)說(shuō),KVTC技術(shù)的核心就是壓縮大型語(yǔ)言模型背后的KV緩存——它相當(dāng)于AI模型的短期記憶。我們可以把KV緩存理解成學(xué)生記筆記:模型處理對(duì)話時(shí),會(huì)把關(guān)鍵信息(也就是KeyValue)記下來(lái),下次生成回應(yīng)時(shí),不用從頭重新計(jì)算整段對(duì)話,響應(yīng)速度就能大幅提升。

但問(wèn)題是,對(duì)話越長(zhǎng),這份筆記就越大,甚至?xí)蛎浀綆讉€(gè)GB,占用大量GPU內(nèi)存,反而拖慢模型運(yùn)行、限制其處理能力。

NVIDIA資深深度學(xué)習(xí)工程師Adrian Lancucki表示:大型語(yǔ)言模型進(jìn)行推論時(shí),性能瓶頸往往不在運(yùn)算能力,而在GPU內(nèi)存。那些暫時(shí)不用的KV緩存,會(huì)一直占用寶貴的GPU資源,逼得系統(tǒng)只能把它們轉(zhuǎn)移到CPU內(nèi)存或硬盤(pán)里,這樣不僅會(huì)增加數(shù)據(jù)傳輸?shù)呢?fù)擔(dān),還可能出現(xiàn)新的卡頓問(wèn)題,這些額外成本最終也會(huì)體現(xiàn)在企業(yè)的使用費(fèi)用中。

和現(xiàn)有壓縮技術(shù)相比,KVTC沒(méi)有那些明顯的局限,它借鑒了我們熟悉的JPEG圖片壓縮思路,通過(guò)主成分分析、自適應(yīng)量化、熵編碼三個(gè)簡(jiǎn)單步驟,就能實(shí)現(xiàn)高效壓縮。

更方便的是,這項(xiàng)技術(shù)不用改動(dòng)模型的核心設(shè)置和代碼,屬于非侵入式設(shè)計(jì),企業(yè)拿來(lái)就能快速部署。它的核心優(yōu)勢(shì)是,能抓住KV緩存數(shù)據(jù)高度相關(guān)的特點(diǎn),在保留關(guān)鍵信息的同時(shí),去掉冗余數(shù)據(jù),而且解壓時(shí)可以分塊、逐層進(jìn)行,不會(huì)影響模型實(shí)時(shí)回應(yīng)。

多輪測(cè)試顯示,KVTC的表現(xiàn)遠(yuǎn)超現(xiàn)有主流方法。在參數(shù)量從15億到700億的多種模型(包括Llama 3系列、R1-Qwen 2.5)上,即便將內(nèi)存壓縮20倍,模型準(zhǔn)確率也幾乎不受影響,損失不到1%,與未壓縮時(shí)相差無(wú)幾;而傳統(tǒng)壓縮方法僅壓縮5倍,就會(huì)出現(xiàn)明顯的準(zhǔn)確率下降。

另外,在H100 GPU上處理8000個(gè)Token的提示時(shí),不使用KVTC需要3秒才能生成第一個(gè)回應(yīng),使用后僅需380毫秒,提速整整8倍。

需要注意的是,KVTC更適合長(zhǎng)對(duì)話、多輪互動(dòng)場(chǎng)景,比如編程助手、迭代式代理推理等,若對(duì)話較短,很難發(fā)揮其壓縮價(jià)值。

目前,NVIDIA正計(jì)劃將這項(xiàng)技術(shù)整合進(jìn)Dynamo框架的KV塊管理器,使其能與vLLM等主流開(kāi)源推論引擎兼容。

業(yè)內(nèi)人士認(rèn)為,隨著大型語(yǔ)言模型可處理的對(duì)話長(zhǎng)度不斷增加,KVTC這類標(biāo)準(zhǔn)化壓縮技術(shù),未來(lái)可能會(huì)像視頻壓縮一樣普及,助力AI更廣泛地落地應(yīng)用。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

2月26日消息,MWC 2026巴展到來(lái)之前,AMD非常低調(diào)地發(fā)布了新一代EPYC 8005系列處理器,代號(hào)“Sorano”(意大利小城索拉諾)。

關(guān)鍵字: AMD 臺(tái)積電

上海2026年2月2日 /美通社/ -- 日前,在2026年美國(guó)氣象學(xué)會(huì)年會(huì)上,英偉達(dá)正式推出Earth-2開(kāi)放模型系列——面向人工智能氣象領(lǐng)域的全開(kāi)放、加速型模型與工具套件...

關(guān)鍵字: 模型 英偉達(dá) AI NVIDIA

AMD第四季財(cái)報(bào)顯示季度營(yíng)收103億美元,每股收益1.53美元,均高于分析師預(yù)期。

關(guān)鍵字: AMD 臺(tái)積電

2月4日消息,在AMD 2025年第四季度財(cái)報(bào)電話會(huì)議上,CEO蘇姿豐意外透露了下一代Xbox的發(fā)布時(shí)間窗口。

關(guān)鍵字: AMD 臺(tái)積電

臺(tái)北2026年1月29日 /美通社/ -- 全球電腦領(lǐng)導(dǎo)品牌技嘉科技(GIGABYTE)深化與 AMD 的策略伙伴關(guān)系,聚焦三大關(guān)鍵產(chǎn)品線,涵蓋 AI 電競(jìng)筆記本電腦、X870E X3D 系列主板與高刷新率 OLED 電...

關(guān)鍵字: AMD AI BSP RYZEN

1月27日消息,據(jù)媒體報(bào)道,微軟近日發(fā)布第二代自研人工智能芯片Maia 200,旨在減少對(duì)英偉達(dá)的依賴,更高效地驅(qū)動(dòng)自身AI服務(wù)。

關(guān)鍵字: 微軟 AMD

1月21日消息,AI已經(jīng)席卷一切,大有重塑每個(gè)行業(yè)的意思,NVIDIA公司也是這幾年AI發(fā)展最大的受益者,CEO黃仁勛則是狂熱的AI布道者。

關(guān)鍵字: NVIDIA AMD AI

洛杉磯2026年1月21日 /美通社/ -- 全球領(lǐng)先的主板、顯卡及硬件解決方案制造商技嘉科技股份有限公司今天在CES 2026上正式發(fā)布了X870E AERO X3D WOOD主板。這一全新高端主板品類將高性能工程技術(shù)...

關(guān)鍵字: CE M.2 AMD 顯卡

臺(tái)北2026年1月17日 /美通社/ -- 在顯卡方面,AORUS GeForce RTX? 5090 INFINITY 旗艦顯卡采用 NVIDIA Blackwell 架構(gòu),完整釋放 GeForce RTX? 50 系...

關(guān)鍵字: NVIDIA AI BSP 顯卡
關(guān)閉