當(dāng)前位置：首頁 > 廠商動(dòng)態(tài) > 廠商動(dòng)態(tài)

“小顯存，大模型”國數(shù)集聯(lián)解讀如何降低AI普惠門檻

時(shí)間：2026-02-26 11:54:45

關(guān)鍵字： DDR內(nèi)存 CXL互聯(lián)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]當(dāng)行業(yè)普遍在為部署一套千億參數(shù)大模型而堆砌數(shù)百GB HBM顯存、配置多臺(tái)高端GPU服務(wù)器時(shí)，一個(gè)更現(xiàn)實(shí)的問題擺在中小企業(yè)面前：如何在有限預(yù)算內(nèi)，安全、高效地本地化運(yùn)行這些模型？國數(shù)集聯(lián)嘗試從“運(yùn)力”的角度給出方案——用更經(jīng)濟(jì)的DDR內(nèi)存和CXL互聯(lián)技術(shù)，緩解對(duì)昂貴顯存的依賴，讓“小顯存”也能跑起“大模型”。

當(dāng)行業(yè)普遍在為部署一套千億參數(shù)大模型而堆砌數(shù)百GB HBM顯存、配置多臺(tái)高端GPU服務(wù)器時(shí)，一個(gè)更現(xiàn)實(shí)的問題擺在中小企業(yè)面前：如何在有限預(yù)算內(nèi)，安全、高效地本地化運(yùn)行這些模型？國數(shù)集聯(lián)嘗試從“運(yùn)力”的角度給出方案——用更經(jīng)濟(jì)的DDR內(nèi)存和CXL互聯(lián)技術(shù)，緩解對(duì)昂貴顯存的依賴，讓“小顯存”也能跑起“大模型”。

行業(yè)背景：大模型與中小企業(yè)之間的“顯存墻”

當(dāng)前，大模型的參數(shù)規(guī)模已從千億向萬億邁進(jìn)，而單張GPU的顯存容量卻受物理工藝、成本限制，增長(zhǎng)相對(duì)緩慢。如果要完整容納一個(gè)DeepSeek 671B（FP8需約700GB）或Qwen3 235B（FP8需約280GB），仍需多卡并行、顯存疊加的方式實(shí)現(xiàn)，這直接推高了大模型本地化部署的硬件門檻。

對(duì)于大多數(shù)中小企業(yè)而言，開源模型的獲取已不是問題，真正的障礙在于基礎(chǔ)設(shè)施成本。一套支持千億模型推理的傳統(tǒng)方案，通常需要8卡甚至16卡高端專用顯卡，硬件投入動(dòng)輒數(shù)百萬元，加上散熱、運(yùn)維等后續(xù)開支，遠(yuǎn)超中小企業(yè)的承受范圍。這也意味著，盡管大模型能力強(qiáng)大，但大量企業(yè)仍被擋在本地化部署的門外，不得不依賴云端API，進(jìn)而面臨數(shù)據(jù)隱私泄露、推理延遲較高、長(zhǎng)期租賃成本疊加等問題。

其主要問題在于模型參數(shù)總量與GPU物理顯存容量之間有差距。而單純堆砌顯存的線性擴(kuò)展模式，不僅成本居高不下，且靈活性極差。國數(shù)集聯(lián)提出的思路是，基于模型MOE（混合專家）架構(gòu)，不追求將所有參數(shù)常駐GPU顯存，而是通過異構(gòu)內(nèi)存分層管理，讓GPU專注于核心計(jì)算任務(wù)，讓大容量DDR或CXL內(nèi)存池來承擔(dān)相關(guān)職責(zé)。這套“小顯存、大模型”方案，正是針對(duì)這一矛盾的靈活性解法，尤其適合對(duì)成本敏感、對(duì)數(shù)據(jù)隱私要求高的邊緣端場(chǎng)景和中小企業(yè)。

實(shí)現(xiàn)方案：精準(zhǔn)卸載與CXL技術(shù)協(xié)同，打破顯存天花板

所謂“小顯存”，是一個(gè)相對(duì)概念——當(dāng)GPU的物理顯存容量，小于待運(yùn)行模型的參數(shù)總量與KV Cache之和時(shí)，就需要借助外部存儲(chǔ)資源來彌補(bǔ)。國數(shù)集聯(lián)的思路是基于CPU/KVCache卸載機(jī)制，并結(jié)合CXL內(nèi)存池化技術(shù)，實(shí)現(xiàn)“隱形顯存”的高效擴(kuò)展，即降低硬件成本，又保障必要的推理性能。

CPU Offload解決參數(shù)容量瓶頸。

在傳統(tǒng)Dense大模型推理中，整個(gè)模型的全部參數(shù)需常駐GPU顯存，以便隨時(shí)調(diào)用。但當(dāng)模型參數(shù)接近或超過顯存容量時(shí)，模型無法完成啟動(dòng)。國數(shù)集聯(lián)利用MOE模型的特性，將完整模型參數(shù)存放于CPU側(cè)的大容量DDR內(nèi)存（或未來的CXL內(nèi)存池）中，GPU僅保留當(dāng)前計(jì)算層所需的“活躍專家”參數(shù)，計(jì)算完成后立即將該部分參數(shù)換出，下一層所需的“活躍專家”參數(shù)再從CPU側(cè)內(nèi)存中換入。這一過程由軟件調(diào)度與硬件指令集協(xié)同完成，盡可能減少數(shù)據(jù)搬運(yùn)帶來的延遲與性能損失。

去年，國數(shù)集聯(lián)已基于SGLang框架完成技術(shù)驗(yàn)證：在一張24GB顯存的GPU上，配合1024GB DDR內(nèi)存，實(shí)現(xiàn)了4路并發(fā)、流暢運(yùn)行DeepSeek 671B FP8版本，推理速度達(dá)到28 tokens/s。截至目前，方案已升級(jí)擴(kuò)展，可支持Qwen系列等主流開源MOE大模型，適配多卡場(chǎng)景，GPU顯存可從單卡24GB靈活升級(jí)至48GB、96GB甚至更高，DDR內(nèi)存容量也可按需調(diào)整。企業(yè)可根據(jù)業(yè)務(wù)增長(zhǎng)逐步擴(kuò)容，無需一次性投入全部硬件成本。

KV Cache Offload解決并發(fā)和長(zhǎng)上下文瓶頸。

在生成式AI任務(wù)中，KV Cache會(huì)隨對(duì)話長(zhǎng)度線性增長(zhǎng)，占用大量GPU顯存，嚴(yán)重限制多路并發(fā)能力。國數(shù)集聯(lián)將KV Cache數(shù)據(jù)卸載到CPU側(cè)內(nèi)存池中管理，釋放GPU顯存空間，讓其專注于核心計(jì)算任務(wù)。這一優(yōu)化，使得在單卡上同時(shí)運(yùn)行多個(gè)并發(fā)成為可能。

CXL技術(shù)的引入，從臨時(shí)卸載到內(nèi)存池化。

當(dāng)前方案中，CPU側(cè)使用的DDR內(nèi)存仍受限于本地總線帶寬和容量上限，難以滿足未來更大規(guī)模模型的部署需求。隨著CXL生態(tài)成熟，國數(shù)集聯(lián)正將CXL內(nèi)存池化技術(shù)引入架構(gòu)升級(jí)，實(shí)現(xiàn)從“臨時(shí)卸載”到“常態(tài)化內(nèi)存分層管理”的跨越。

CXL技術(shù)的核心優(yōu)勢(shì)的在于，允許CPU、GPU、AI加速器等不同設(shè)備共享一致的內(nèi)存空間，并支持內(nèi)存的靈活擴(kuò)展和池化管理。未來GPU可直接訪問由CXL交換機(jī)連接的遠(yuǎn)端大容量的內(nèi)存池。如同訪問本地內(nèi)存一樣，但內(nèi)存容量可擴(kuò)展至TB級(jí)別，帶寬也隨著CXL 3.x/4.0的部署而提升。

這種架構(gòu)下，卸載不再是權(quán)宜之計(jì)，而是一種常態(tài)化的內(nèi)存分層管理：熱數(shù)據(jù)（當(dāng)前活躍參數(shù)、高頻訪問的KV Cache）留在GPU近端顯存，溫?cái)?shù)據(jù)（完整參數(shù)、低頻Cache）置于CXL內(nèi)存池，冷數(shù)據(jù)甚至可進(jìn)一步下沉到CXL SSD。通過這種分層管理，實(shí)現(xiàn)性能、成本與靈活性的最佳平衡，為后續(xù)更大規(guī)模模型的低成本部署奠定基礎(chǔ)。

核心價(jià)值：低成本、高靈活、易部署，讓AI普惠落地

國數(shù)集聯(lián)“小顯存、大模型”方案，對(duì)中小企業(yè)AI本地化應(yīng)用的價(jià)值是多維度的，不僅大幅降低硬件采購成本，更在部署靈活性、運(yùn)維簡(jiǎn)便性上實(shí)現(xiàn)優(yōu)化，真正讓AI技術(shù)能夠走進(jìn)更多中小企業(yè)。

成本大幅降低：相比傳統(tǒng)的堆卡方案，國數(shù)集聯(lián)“小顯存”方案可將硬件成本降低60%以上。企業(yè)可使用消費(fèi)級(jí)顯卡（如RTX 4090 24GB）起步，配合大容量DDR內(nèi)存，即可運(yùn)行百億甚至千億模型。盡管在并發(fā)性能上與高端多卡方案還有差距，但對(duì)于要求不高的場(chǎng)景，性價(jià)比極高。

部署靈活，可按需擴(kuò)展：企業(yè)無需一次性投入全部硬件成本，可從一臺(tái)配備單卡的工作站開始，后續(xù)隨業(yè)務(wù)增長(zhǎng)逐步增加顯卡、內(nèi)存，或接入CXL內(nèi)存池，無需推翻原有架構(gòu)。這種漸進(jìn)式投資模式，降低了中小企業(yè)的初始投入壓力，也讓AI能力的獲取更加平滑。

場(chǎng)景適配廣泛，隱私更有保障：方案特別適合邊緣和中小企業(yè)本地化部署場(chǎng)景。在生產(chǎn)企業(yè)，可用于產(chǎn)線質(zhì)檢模型實(shí)時(shí)推理；在電商行業(yè)，可支撐智能客服、商品描述自動(dòng)生成；在外貿(mào)領(lǐng)域，可實(shí)現(xiàn)郵件自動(dòng)回復(fù)、多語言翻譯；在金融行業(yè)，可用于合同審核、簡(jiǎn)單風(fēng)險(xiǎn)分析；在教科研領(lǐng)域，可滿足教學(xué)演示、學(xué)術(shù)研究的算力需求。同時(shí)，本地化部署模式避免了數(shù)據(jù)上傳云端，從源頭保障數(shù)據(jù)隱私安全，規(guī)避云端服務(wù)的延遲風(fēng)險(xiǎn)和長(zhǎng)期租賃成本。

運(yùn)維簡(jiǎn)便，降低技術(shù)門檻：方案基于單卡或少量顯卡的架構(gòu)，系統(tǒng)結(jié)構(gòu)簡(jiǎn)單，故障點(diǎn)少，無需專業(yè)的高端運(yùn)維團(tuán)隊(duì)，更適配中小企業(yè)IT團(tuán)隊(duì)規(guī)模有限的現(xiàn)狀。此外，國數(shù)集聯(lián)還提供了優(yōu)化后的軟件棧，集成ComfyUI文生圖/視頻、圖生圖/視頻等主流智能體應(yīng)用，用戶可實(shí)現(xiàn)“開箱即用”，無需投入大量精力進(jìn)行軟件適配和調(diào)試，專注于業(yè)務(wù)創(chuàng)新而非基礎(chǔ)設(shè)施維護(hù)。

未來演進(jìn)：從單點(diǎn)優(yōu)化到基于CXL的異構(gòu)資源池

從2025年開始，CXL技術(shù)正從概念走向規(guī)?；涞兀瑖鴥?nèi)外廠商紛紛推出相關(guān)產(chǎn)品和方案。例如，英偉達(dá)通過收購Enfabrica，推出基于CXL的Emfasys 144T內(nèi)存集群，優(yōu)化大規(guī)模AI推理的彈性內(nèi)存架構(gòu)；Google計(jì)劃在下一代TPU中采用CXL內(nèi)存池化，替代或補(bǔ)充HBM；Marvell推出Structera系列產(chǎn)品，實(shí)現(xiàn)與主流內(nèi)存及CPU平臺(tái)的高效互操作；阿里云則在PolarDB數(shù)據(jù)庫服務(wù)器中引入CXL技術(shù)，顯著提升內(nèi)存交互性能并降低總體擁有成本（TCO）。

國數(shù)集聯(lián)將沿著“普惠”路徑持續(xù)深化方案，短期目標(biāo)包括：進(jìn)一步優(yōu)化參數(shù)卸載策略和調(diào)度算法，支持更多模型，同時(shí)提升推理吞吐量和響應(yīng)速度。推出基于CXL的擴(kuò)展卡和內(nèi)存池設(shè)備，實(shí)現(xiàn)從單服務(wù)器擴(kuò)展至多臺(tái)邊緣設(shè)備共享內(nèi)存資源的跨越，提升資源利用率。此外，國數(shù)集聯(lián)還在探索與UAlink等新一代高速互聯(lián)技術(shù)的融合，構(gòu)建更高效、更靈活的異構(gòu)計(jì)算平臺(tái)。

長(zhǎng)期來看，隨著CXL 3.X及后續(xù)版本的普及，真正的異構(gòu)資源池將成為現(xiàn)實(shí)。屆時(shí)，不僅內(nèi)存，不同計(jì)算單元（GPU、NPU、FPGA）也能被靈活組合，企業(yè)可按需從池中調(diào)用算力與內(nèi)存資源，如同使用水電一樣便捷。資源配置將極度靈活，可按任務(wù)需求動(dòng)態(tài)調(diào)整，實(shí)現(xiàn)資源利用率和性價(jià)比的最大化。同時(shí)，該架構(gòu)為“存算分離”等新一代高效模型架構(gòu)提供了原生硬件支持，持續(xù)降低單位AI能力的獲取成本。

結(jié)論

國數(shù)集聯(lián)的“小顯存、大模型”之路，始于一個(gè)樸素的問題：如何用更低的成本，讓大模型安全可靠地運(yùn)行在本地？通過CPU/KVCache Offload與CXL技術(shù)的協(xié)同創(chuàng)新，他們給出了一個(gè)切實(shí)可行的方案。這套方案并未試圖發(fā)明比GPU更快的計(jì)算硬件，而是通過“運(yùn)力”架構(gòu)的創(chuàng)新，讓現(xiàn)有GPU在顯存受限的條件下釋放最大潛力。

未來，隨著CXL等高速互聯(lián)技術(shù)的不斷演進(jìn)，AI基礎(chǔ)設(shè)施的門檻有望進(jìn)一步降低，普惠AI的愿景將更加接近現(xiàn)實(shí)。國數(shù)集聯(lián)始終認(rèn)為，衡量技術(shù)先進(jìn)性的最終標(biāo)準(zhǔn)，不是參數(shù)的堆砌，也不是硬件的奢華，而是能否讓更多企業(yè)和個(gè)人真正用上、用好AI技術(shù)。讓AI成為推動(dòng)中小企業(yè)數(shù)字化轉(zhuǎn)型、賦能實(shí)體經(jīng)濟(jì)的核心動(dòng)力。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

貿(mào)澤電子亮相SPS廣州，一站式工業(yè)自動(dòng)化平臺(tái)加速AIa制造落地

關(guān)鍵字： MOUSER 廣州SPS

[Renesas]

面向嵌入式部署的神經(jīng)網(wǎng)絡(luò)優(yōu)化：模型壓縮深度解析

神經(jīng)網(wǎng)絡(luò)已經(jīng)成為解決復(fù)雜機(jī)器學(xué)習(xí)問題的強(qiáng)大工具。然而，這種能力往往伴隨著模型規(guī)模和計(jì)算復(fù)雜度的增加。當(dāng)輸入維度較大（例如長(zhǎng)時(shí)序窗口、高分辨率特征空間）時(shí)，模型需要更多參數(shù)、每次推理需要更多算術(shù)運(yùn)算，使其難以部署在嵌入式硬...

關(guān)鍵字：嵌入式神經(jīng)網(wǎng)絡(luò) 模型壓縮

[TrendForce集邦咨詢]

TrendForce集邦咨詢: 預(yù)計(jì)HBM4驗(yàn)證將于2026年第二季度完成，三大原廠供應(yīng)英偉達(dá)的格局有望成形

Feb. 13, 2026 ---- 根據(jù)TrendForce集邦咨詢最新HBM產(chǎn)業(yè)研究，隨著AI基礎(chǔ)建設(shè)擴(kuò)張，對(duì)應(yīng)的GPU需求也不斷成長(zhǎng)，預(yù)期NVIDIA(英偉達(dá)) Rubin平臺(tái)量產(chǎn)后，將帶動(dòng)HBM4需求。目前三大存...

關(guān)鍵字： HBM4 AI GPU

[應(yīng)用材料公司]

應(yīng)用材料公司發(fā)布2026財(cái)年第一季度財(cái)務(wù)報(bào)告

應(yīng)用材料公司總裁兼首席執(zhí)行官蓋瑞·狄克森表示：“得益于行業(yè)加速在人工智能計(jì)算領(lǐng)域的投資，應(yīng)用材料公司在本財(cái)年第一季度業(yè)績(jī)表現(xiàn)強(qiáng)勁。市場(chǎng)對(duì)更高性能、更高能效芯片的需求正推動(dòng)著前沿邏輯、高帶寬內(nèi)存和先進(jìn)封裝的高速增長(zhǎng)。這些領(lǐng)...

關(guān)鍵字：人工智能計(jì)算內(nèi)存

[XMOS]

XMOS推出專為嵌入式語音交互功能開發(fā)提供的全新線上選型指南

中國北京，2026年2月——生成式系統(tǒng)級(jí)芯片(GenSoC)領(lǐng)先開發(fā)者及音視頻媒體處理AI技術(shù)提供商XMOS正式發(fā)布其語音方案選型指南，該款高效易用的網(wǎng)上音頻交互解決方案開發(fā)平臺(tái)以互動(dòng)式工具與專業(yè)知識(shí)庫，幫助產(chǎn)品架構(gòu)師、...

關(guān)鍵字：嵌入式邊緣AI 機(jī)器人

[意法半導(dǎo)體]

意法半導(dǎo)體與亞馬遜云計(jì)算服務(wù)AWS深化戰(zhàn)略合作，共同打造面向云與AI數(shù)據(jù)中心的新一代高性能計(jì)算基礎(chǔ)設(shè)施

2026年2月13日，中國 ——服務(wù)多重電子應(yīng)用領(lǐng)域、全球排名前列的半導(dǎo)體公司意法半導(dǎo)體 (STMicroelectronics，簡(jiǎn)稱ST;紐約證券交易所代碼:STM) 近日宣布與亞馬遜云計(jì)算服務(wù)(AWS)拓展戰(zhàn)略協(xié)作，...

關(guān)鍵字： AI 數(shù)據(jù)中心 EDA

[Pickering Electronics]