日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁 > 廠商動(dòng)態(tài) > 廠商動(dòng)態(tài)
[導(dǎo)讀]當(dāng)行業(yè)普遍在為部署一套千億參數(shù)大模型而堆砌數(shù)百GB HBM顯存、配置多臺(tái)高端GPU服務(wù)器時(shí),一個(gè)更現(xiàn)實(shí)的問題擺在中小企業(yè)面前:如何在有限預(yù)算內(nèi),安全、高效地本地化運(yùn)行這些模型?國數(shù)集聯(lián)嘗試從“運(yùn)力”的角度給出方案——用更經(jīng)濟(jì)的DDR內(nèi)存和CXL互聯(lián)技術(shù),緩解對(duì)昂貴顯存的依賴,讓“小顯存”也能跑起“大模型”。

當(dāng)行業(yè)普遍在為部署一套千億參數(shù)大模型而堆砌數(shù)百GB HBM顯存、配置多臺(tái)高端GPU服務(wù)器時(shí),一個(gè)更現(xiàn)實(shí)的問題擺在中小企業(yè)面前:如何在有限預(yù)算內(nèi),安全、高效地本地化運(yùn)行這些模型?國數(shù)集聯(lián)嘗試從“運(yùn)力”的角度給出方案——用更經(jīng)濟(jì)的DDR內(nèi)存和CXL互聯(lián)技術(shù),緩解對(duì)昂貴顯存的依賴,讓“小顯存”也能跑起“大模型”。


行業(yè)背景:大模型與中小企業(yè)之間的“顯存墻”

當(dāng)前,大模型的參數(shù)規(guī)模已從千億向萬億邁進(jìn),而單張GPU的顯存容量卻受物理工藝、成本限制,增長(zhǎng)相對(duì)緩慢。如果要完整容納一個(gè)DeepSeek 671B(FP8需約700GB)或Qwen3 235B(FP8需約280GB),仍需多卡并行、顯存疊加的方式實(shí)現(xiàn),這直接推高了大模型本地化部署的硬件門檻。

對(duì)于大多數(shù)中小企業(yè)而言,開源模型的獲取已不是問題,真正的障礙在于基礎(chǔ)設(shè)施成本。一套支持千億模型推理的傳統(tǒng)方案,通常需要8卡甚至16卡高端專用顯卡,硬件投入動(dòng)輒數(shù)百萬元,加上散熱、運(yùn)維等后續(xù)開支,遠(yuǎn)超中小企業(yè)的承受范圍。這也意味著,盡管大模型能力強(qiáng)大,但大量企業(yè)仍被擋在本地化部署的門外,不得不依賴云端API,進(jìn)而面臨數(shù)據(jù)隱私泄露、推理延遲較高、長(zhǎng)期租賃成本疊加等問題。

其主要問題在于模型參數(shù)總量與GPU物理顯存容量之間有差距。而單純堆砌顯存的線性擴(kuò)展模式,不僅成本居高不下,且靈活性極差。國數(shù)集聯(lián)提出的思路是,基于模型MOE(混合專家)架構(gòu),不追求將所有參數(shù)常駐GPU顯存,而是通過異構(gòu)內(nèi)存分層管理,讓GPU專注于核心計(jì)算任務(wù),讓大容量DDR或CXL內(nèi)存池來承擔(dān)相關(guān)職責(zé)。這套“小顯存、大模型”方案,正是針對(duì)這一矛盾的靈活性解法,尤其適合對(duì)成本敏感、對(duì)數(shù)據(jù)隱私要求高的邊緣端場(chǎng)景和中小企業(yè)。


實(shí)現(xiàn)方案:精準(zhǔn)卸載與CXL技術(shù)協(xié)同,打破顯存天花板

所謂“小顯存”,是一個(gè)相對(duì)概念——當(dāng)GPU的物理顯存容量,小于待運(yùn)行模型的參數(shù)總量與KV Cache之和時(shí),就需要借助外部存儲(chǔ)資源來彌補(bǔ)。國數(shù)集聯(lián)的思路是基于CPU/KVCache卸載機(jī)制,并結(jié)合CXL內(nèi)存池化技術(shù),實(shí)現(xiàn)“隱形顯存”的高效擴(kuò)展,即降低硬件成本,又保障必要的推理性能。

CPU Offload解決參數(shù)容量瓶頸。

在傳統(tǒng)Dense大模型推理中,整個(gè)模型的全部參數(shù)需常駐GPU顯存,以便隨時(shí)調(diào)用。但當(dāng)模型參數(shù)接近或超過顯存容量時(shí),模型無法完成啟動(dòng)。國數(shù)集聯(lián)利用MOE模型的特性,將完整模型參數(shù)存放于CPU側(cè)的大容量DDR內(nèi)存(或未來的CXL內(nèi)存池)中,GPU僅保留當(dāng)前計(jì)算層所需的“活躍專家”參數(shù),計(jì)算完成后立即將該部分參數(shù)換出,下一層所需的“活躍專家”參數(shù)再從CPU側(cè)內(nèi)存中換入。這一過程由軟件調(diào)度與硬件指令集協(xié)同完成,盡可能減少數(shù)據(jù)搬運(yùn)帶來的延遲與性能損失。

去年,國數(shù)集聯(lián)已基于SGLang框架完成技術(shù)驗(yàn)證:在一張24GB顯存的GPU上,配合1024GB DDR內(nèi)存,實(shí)現(xiàn)了4路并發(fā)、流暢運(yùn)行DeepSeek 671B FP8版本,推理速度達(dá)到28 tokens/s。截至目前,方案已升級(jí)擴(kuò)展,可支持Qwen系列等主流開源MOE大模型,適配多卡場(chǎng)景,GPU顯存可從單卡24GB靈活升級(jí)至48GB、96GB甚至更高,DDR內(nèi)存容量也可按需調(diào)整。企業(yè)可根據(jù)業(yè)務(wù)增長(zhǎng)逐步擴(kuò)容,無需一次性投入全部硬件成本。

KV Cache Offload解決并發(fā)和長(zhǎng)上下文瓶頸。

在生成式AI任務(wù)中,KV Cache會(huì)隨對(duì)話長(zhǎng)度線性增長(zhǎng),占用大量GPU顯存,嚴(yán)重限制多路并發(fā)能力。國數(shù)集聯(lián)將KV Cache數(shù)據(jù)卸載到CPU側(cè)內(nèi)存池中管理,釋放GPU顯存空間,讓其專注于核心計(jì)算任務(wù)。這一優(yōu)化,使得在單卡上同時(shí)運(yùn)行多個(gè)并發(fā)成為可能。

CXL技術(shù)的引入,從臨時(shí)卸載到內(nèi)存池化。

當(dāng)前方案中,CPU側(cè)使用的DDR內(nèi)存仍受限于本地總線帶寬和容量上限,難以滿足未來更大規(guī)模模型的部署需求。隨著CXL生態(tài)成熟,國數(shù)集聯(lián)正將CXL內(nèi)存池化技術(shù)引入架構(gòu)升級(jí),實(shí)現(xiàn)從“臨時(shí)卸載”到“常態(tài)化內(nèi)存分層管理”的跨越。

CXL技術(shù)的核心優(yōu)勢(shì)的在于,允許CPU、GPU、AI加速器等不同設(shè)備共享一致的內(nèi)存空間,并支持內(nèi)存的靈活擴(kuò)展和池化管理。未來GPU可直接訪問由CXL交換機(jī)連接的遠(yuǎn)端大容量的內(nèi)存池。如同訪問本地內(nèi)存一樣,但內(nèi)存容量可擴(kuò)展至TB級(jí)別,帶寬也隨著CXL 3.x/4.0的部署而提升。

這種架構(gòu)下,卸載不再是權(quán)宜之計(jì),而是一種常態(tài)化的內(nèi)存分層管理:熱數(shù)據(jù)(當(dāng)前活躍參數(shù)、高頻訪問的KV Cache)留在GPU近端顯存,溫?cái)?shù)據(jù)(完整參數(shù)、低頻Cache)置于CXL內(nèi)存池,冷數(shù)據(jù)甚至可進(jìn)一步下沉到CXL SSD。通過這種分層管理,實(shí)現(xiàn)性能、成本與靈活性的最佳平衡,為后續(xù)更大規(guī)模模型的低成本部署奠定基礎(chǔ)。


核心價(jià)值:低成本、高靈活、易部署,讓AI普惠落地

國數(shù)集聯(lián)“小顯存、大模型”方案,對(duì)中小企業(yè)AI本地化應(yīng)用的價(jià)值是多維度的,不僅大幅降低硬件采購成本,更在部署靈活性、運(yùn)維簡(jiǎn)便性上實(shí)現(xiàn)優(yōu)化,真正讓AI技術(shù)能夠走進(jìn)更多中小企業(yè)。

成本大幅降低:相比傳統(tǒng)的堆卡方案,國數(shù)集聯(lián)“小顯存”方案可將硬件成本降低60%以上。企業(yè)可使用消費(fèi)級(jí)顯卡(如RTX 4090 24GB)起步,配合大容量DDR內(nèi)存,即可運(yùn)行百億甚至千億模型。盡管在并發(fā)性能上與高端多卡方案還有差距,但對(duì)于要求不高的場(chǎng)景,性價(jià)比極高。

部署靈活,可按需擴(kuò)展:企業(yè)無需一次性投入全部硬件成本,可從一臺(tái)配備單卡的工作站開始,后續(xù)隨業(yè)務(wù)增長(zhǎng)逐步增加顯卡、內(nèi)存,或接入CXL內(nèi)存池,無需推翻原有架構(gòu)。這種漸進(jìn)式投資模式,降低了中小企業(yè)的初始投入壓力,也讓AI能力的獲取更加平滑。

場(chǎng)景適配廣泛,隱私更有保障:方案特別適合邊緣和中小企業(yè)本地化部署場(chǎng)景。在生產(chǎn)企業(yè),可用于產(chǎn)線質(zhì)檢模型實(shí)時(shí)推理;在電商行業(yè),可支撐智能客服、商品描述自動(dòng)生成;在外貿(mào)領(lǐng)域,可實(shí)現(xiàn)郵件自動(dòng)回復(fù)、多語言翻譯;在金融行業(yè),可用于合同審核、簡(jiǎn)單風(fēng)險(xiǎn)分析;在教科研領(lǐng)域,可滿足教學(xué)演示、學(xué)術(shù)研究的算力需求。同時(shí),本地化部署模式避免了數(shù)據(jù)上傳云端,從源頭保障數(shù)據(jù)隱私安全,規(guī)避云端服務(wù)的延遲風(fēng)險(xiǎn)和長(zhǎng)期租賃成本。

運(yùn)維簡(jiǎn)便,降低技術(shù)門檻:方案基于單卡或少量顯卡的架構(gòu),系統(tǒng)結(jié)構(gòu)簡(jiǎn)單,故障點(diǎn)少,無需專業(yè)的高端運(yùn)維團(tuán)隊(duì),更適配中小企業(yè)IT團(tuán)隊(duì)規(guī)模有限的現(xiàn)狀。此外,國數(shù)集聯(lián)還提供了優(yōu)化后的軟件棧,集成ComfyUI文生圖/視頻、圖生圖/視頻等主流智能體應(yīng)用,用戶可實(shí)現(xiàn)“開箱即用”,無需投入大量精力進(jìn)行軟件適配和調(diào)試,專注于業(yè)務(wù)創(chuàng)新而非基礎(chǔ)設(shè)施維護(hù)。

未來演進(jìn):從單點(diǎn)優(yōu)化到基于CXL的異構(gòu)資源池

從2025年開始,CXL技術(shù)正從概念走向規(guī)?;涞兀瑖鴥?nèi)外廠商紛紛推出相關(guān)產(chǎn)品和方案。例如,英偉達(dá)通過收購Enfabrica,推出基于CXL的Emfasys 144T內(nèi)存集群,優(yōu)化大規(guī)模AI推理的彈性內(nèi)存架構(gòu);Google計(jì)劃在下一代TPU中采用CXL內(nèi)存池化,替代或補(bǔ)充HBM;Marvell推出Structera系列產(chǎn)品,實(shí)現(xiàn)與主流內(nèi)存及CPU平臺(tái)的高效互操作;阿里云則在PolarDB數(shù)據(jù)庫服務(wù)器中引入CXL技術(shù),顯著提升內(nèi)存交互性能并降低總體擁有成本(TCO)。

國數(shù)集聯(lián)將沿著“普惠”路徑持續(xù)深化方案,短期目標(biāo)包括:進(jìn)一步優(yōu)化參數(shù)卸載策略和調(diào)度算法,支持更多模型,同時(shí)提升推理吞吐量和響應(yīng)速度。推出基于CXL的擴(kuò)展卡和內(nèi)存池設(shè)備,實(shí)現(xiàn)從單服務(wù)器擴(kuò)展至多臺(tái)邊緣設(shè)備共享內(nèi)存資源的跨越,提升資源利用率。此外,國數(shù)集聯(lián)還在探索與UAlink等新一代高速互聯(lián)技術(shù)的融合,構(gòu)建更高效、更靈活的異構(gòu)計(jì)算平臺(tái)。

長(zhǎng)期來看,隨著CXL 3.X及后續(xù)版本的普及,真正的異構(gòu)資源池將成為現(xiàn)實(shí)。屆時(shí),不僅內(nèi)存,不同計(jì)算單元(GPU、NPU、FPGA)也能被靈活組合,企業(yè)可按需從池中調(diào)用算力與內(nèi)存資源,如同使用水電一樣便捷。資源配置將極度靈活,可按任務(wù)需求動(dòng)態(tài)調(diào)整,實(shí)現(xiàn)資源利用率和性價(jià)比的最大化。同時(shí),該架構(gòu)為“存算分離”等新一代高效模型架構(gòu)提供了原生硬件支持,持續(xù)降低單位AI能力的獲取成本。


結(jié)論

國數(shù)集聯(lián)的“小顯存、大模型”之路,始于一個(gè)樸素的問題:如何用更低的成本,讓大模型安全可靠地運(yùn)行在本地?通過CPU/KVCache Offload與CXL技術(shù)的協(xié)同創(chuàng)新,他們給出了一個(gè)切實(shí)可行的方案。這套方案并未試圖發(fā)明比GPU更快的計(jì)算硬件,而是通過“運(yùn)力”架構(gòu)的創(chuàng)新,讓現(xiàn)有GPU在顯存受限的條件下釋放最大潛力。

未來,隨著CXL等高速互聯(lián)技術(shù)的不斷演進(jìn),AI基礎(chǔ)設(shè)施的門檻有望進(jìn)一步降低,普惠AI的愿景將更加接近現(xiàn)實(shí)。國數(shù)集聯(lián)始終認(rèn)為,衡量技術(shù)先進(jìn)性的最終標(biāo)準(zhǔn),不是參數(shù)的堆砌,也不是硬件的奢華,而是能否讓更多企業(yè)和個(gè)人真正用上、用好AI技術(shù)。讓AI成為推動(dòng)中小企業(yè)數(shù)字化轉(zhuǎn)型、賦能實(shí)體經(jīng)濟(jì)的核心動(dòng)力。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

神經(jīng)網(wǎng)絡(luò)已經(jīng)成為解決復(fù)雜機(jī)器學(xué)習(xí)問題的強(qiáng)大工具。然而,這種能力往往伴隨著模型規(guī)模和計(jì)算復(fù)雜度的增加。當(dāng)輸入維度較大(例如長(zhǎng)時(shí)序窗口、高分辨率特征空間)時(shí),模型需要更多參數(shù)、每次推理需要更多算術(shù)運(yùn)算,使其難以部署在嵌入式硬...

關(guān)鍵字: 嵌入式 神經(jīng)網(wǎng)絡(luò) 模型壓縮

Feb. 13, 2026 ---- 根據(jù)TrendForce集邦咨詢最新HBM產(chǎn)業(yè)研究,隨著AI基礎(chǔ)建設(shè)擴(kuò)張,對(duì)應(yīng)的GPU需求也不斷成長(zhǎng),預(yù)期NVIDIA(英偉達(dá)) Rubin平臺(tái)量產(chǎn)后,將帶動(dòng)HBM4需求。目前三大存...

關(guān)鍵字: HBM4 AI GPU

應(yīng)用材料公司總裁兼首席執(zhí)行官蓋瑞·狄克森表示:“得益于行業(yè)加速在人工智能計(jì)算領(lǐng)域的投資,應(yīng)用材料公司在本財(cái)年第一季度業(yè)績(jī)表現(xiàn)強(qiáng)勁。市場(chǎng)對(duì)更高性能、更高能效芯片的需求正推動(dòng)著前沿邏輯、高帶寬內(nèi)存和先進(jìn)封裝的高速增長(zhǎng)。這些領(lǐng)...

關(guān)鍵字: 人工智能 計(jì)算 內(nèi)存

中國北京,2026年2月——生成式系統(tǒng)級(jí)芯片(GenSoC)領(lǐng)先開發(fā)者及音視頻媒體處理AI技術(shù)提供商XMOS正式發(fā)布其語音方案選型指南,該款高效易用的網(wǎng)上音頻交互解決方案開發(fā)平臺(tái)以互動(dòng)式工具與專業(yè)知識(shí)庫,幫助產(chǎn)品架構(gòu)師、...

關(guān)鍵字: 嵌入式 邊緣AI 機(jī)器人

2026年2月13日,中國 ——服務(wù)多重電子應(yīng)用領(lǐng)域、全球排名前列的半導(dǎo)體公司意法半導(dǎo)體 (STMicroelectronics,簡(jiǎn)稱ST;紐約證券交易所代碼:STM) 近日宣布與亞馬遜云計(jì)算服務(wù)(AWS)拓展戰(zhàn)略協(xié)作,...

關(guān)鍵字: AI 數(shù)據(jù)中心 EDA

艾睿電子近期啟動(dòng)了一項(xiàng)重點(diǎn)項(xiàng)目,并建立了線上資源平臺(tái),旨在推動(dòng)汽車電子電氣(electrical and electronic)架構(gòu)邁向高效與智能化。

關(guān)鍵字: 汽車電子

Feb. 11, 2026 ---- Sharp(夏普)于2月10日公告,將執(zhí)行日本龜山K2工廠(Gen8 2160mmx2460mm)停產(chǎn)計(jì)劃,后續(xù)并將尋找買家接手。TrendForce集邦咨詢表示,K2工廠生產(chǎn)的面板...

關(guān)鍵字: IT面板 電子紙 LCD
關(guān)閉