算力“突圍”戰(zhàn),國產(chǎn)芯片如何跨越“千卡超節(jié)點”的驗證鴻溝?
在先進制程受限的當(dāng)下,中國AI計算芯片產(chǎn)業(yè)正經(jīng)歷著一場從“單點對決”到“集群突圍”的范式轉(zhuǎn)移。
全球AI競賽進入“千卡級”規(guī)模訓(xùn)練集群,算力的指數(shù)級增長并未自動轉(zhuǎn)化為系統(tǒng)效能的線性提升——想象一個由上千顆AI芯片組成的超節(jié)點,每顆芯片都在高速運轉(zhuǎn),卻因互聯(lián)效率低下而“各自為戰(zhàn)”——這正是當(dāng)前中國智算系統(tǒng)面臨的現(xiàn)實困境——互聯(lián)架構(gòu)正成為制約中國智算芯片規(guī)模化部署的關(guān)鍵瓶頸。
可以說,沒有高效的互聯(lián),就沒有真正的千卡超節(jié)點。如何跨越從單卡到千卡超節(jié)點的技術(shù)鴻溝?上海合見工業(yè)軟件集團有限公司(下文簡稱“合見工軟”)直面這一挑戰(zhàn),在ICCAD2025上給出了答案。
展會期間,合見工軟展臺集中亮相了一套覆蓋智算互聯(lián)IP庫與組網(wǎng)驗證平臺的完整技術(shù)棧及配套硬件平臺。公司副總裁吳曉忠也在媒體專訪中深入闡釋了該方案如何打通從芯片到系統(tǒng)級驗證的全鏈路,加速千卡超節(jié)點從概念走向落地。
算力新范式:用“堆疊+組網(wǎng)”對抗先進制程短板
“境外的先進工藝無法獲得,境內(nèi)受限于制造水平,單芯片面積無法做大。但在國內(nèi)電力供應(yīng)相對充足的背景下,通過‘堆疊+組網(wǎng)’的方式去換取算力,是一個必然的競爭趨勢?!眳菚灾以诓稍L中一針見血地指出了當(dāng)前國產(chǎn)算力的生存與發(fā)展邏輯。
客觀數(shù)據(jù)顯示,國內(nèi)主流智算芯片制程尚處于12nm與7nm的迭代階段,而北美頭部廠商已演進至5nm/4nm甚至更先進制程。受限于此,國產(chǎn)芯片在單卡算力密度、內(nèi)存帶寬尤其是Scale-up(垂直擴展)帶寬方面,約為北美同類產(chǎn)品的40%。
如何彌補這巨大的差距?答案在于超節(jié)點。
吳曉忠以華為在今年7月發(fā)布的CloudMatrix架構(gòu)為例,形象地解釋了這一路徑的可行性:“雖然單卡算力約為Nvidia產(chǎn)品的40%,但通過384張卡組成超節(jié)點集群,最終實現(xiàn)了相當(dāng)于NV72架構(gòu)1.7倍的算力。”這種“多卡如一卡”的架構(gòu)創(chuàng)新,證明了通過大規(guī)模互聯(lián)提升系統(tǒng)級性能,是國產(chǎn)芯片突圍的有效路徑。
行業(yè)預(yù)測,2025年中國智算芯片將全面邁入“千卡時代”。一個典型的基于51.2T交換芯片實現(xiàn)的1024卡全互聯(lián)超節(jié)點,需要滿足極低延遲(端到端跨交換機延遲約400納秒)和極高可靠性。然而,這一愿景的落地,正面臨著巨大的工程挑戰(zhàn)。
邁入“千卡時代”:協(xié)議碎片化下的驗證困境
“涉及超節(jié)點,基本上就是多卡互聯(lián)。但目前市面上沒有任何一家的硬件仿真平臺,能夠把整個超節(jié)點的設(shè)計一次性放進去,都需要做裁剪?!眳菚灾抑赋隽水?dāng)前EDA驗證領(lǐng)域面臨的物理瓶頸。
更為棘手的是協(xié)議的碎片化。與國外相對統(tǒng)一的標準不同,國內(nèi)Scale-up協(xié)議呈現(xiàn)出高度離散的狀態(tài)。“華為、阿里、中國移動等都在推動各自的標準協(xié)議?!眳菚灾冶硎?,包括國際上并存著NvLink類、CXL、SUE以及各家私有協(xié)議,且更新極快。
這種現(xiàn)狀給芯片設(shè)計公司帶來了巨大的風(fēng)險:
·驗證盲區(qū): 算力芯片與交換芯片屬于異構(gòu)互聯(lián),如果在設(shè)計階段無法進行互聯(lián)互通測試,投片后一旦發(fā)現(xiàn)協(xié)議不匹配,將面臨巨大的沉沒成本。
·透明度難題: 超節(jié)點要求做到對使用者“無感”,即數(shù)百張卡像一張卡一樣工作。這對配套軟件和互聯(lián)IP的驗證要求極高,特別是在組網(wǎng)過程中,芯片與以太網(wǎng)連接部分的驗證負荷極重。
對此,合見工軟提出了一種“既全且深”的解題思路——不僅提供工具,更提供連接真實世界的“橋梁”。
破局之道:從高性能IP到“真機”實戰(zhàn)的閉環(huán)
面對“有協(xié)議無標準產(chǎn)品”和“仿真難”的痛點,合見工軟展示了一套包含IP、硬件驗證系統(tǒng)及封測和設(shè)計服務(wù)的組合拳。
首先是高性能互聯(lián)IP的底層支撐。 據(jù)合見工軟副總裁楊凱分享,合見工軟已構(gòu)建了支持內(nèi)存語義和消息語義的超節(jié)點IP庫。在7nm工藝下,其400G SUE Lite版本數(shù)字部分面積僅為0.76平方毫米,卡間直連延遲低于130納秒。這套IP不僅支持ETH、RDMA等主流協(xié)議,還針對國內(nèi)特定的Scale-up場景進行了深度優(yōu)化,目前在國內(nèi)同類IP市場中占據(jù)領(lǐng)先地位。
其次是獨創(chuàng)的“真機”組網(wǎng)驗證平臺。 “我們是目前唯一一家既有超節(jié)點互聯(lián)IP,又能做到大規(guī)?;ヂ?lián)驗證的公司?!眳菚灾覐娬{(diào)了合見工軟的差異化優(yōu)勢。
為了解決仿真環(huán)境與真實部署環(huán)境脫節(jié)的問題,合見工軟打通了FPGA原型驗證系統(tǒng)與真實交換機的連接。其驗證平臺可以直接對接博通、華為等主流廠商的51.2T以太網(wǎng)交換機。通過內(nèi)置的Scale-Up Suite,平臺能將原型中的低速信號轉(zhuǎn)換為全速400G流量,在芯片流片前就完成全速功能的互聯(lián)互通測試。
這種“真刀真槍”的驗證方式市場反饋如何?答案建立在堅實的“信任基座”與“前沿落地”之上。
從基礎(chǔ)工具鏈的維度看,合見工軟已獲得了市場的廣泛信任。吳曉忠透露,過去三年,其硬件驗證產(chǎn)品(UV APS/UVHS系列)累計出貨量已超過1000臺;而數(shù)字仿真軟件UVS也在客戶處經(jīng)歷了50多個項目、200多萬個測試場景用例的打磨。這些龐大的存量市場和經(jīng)過驗證的穩(wěn)定性,為復(fù)雜的超節(jié)點組網(wǎng)方案提供了可靠的“底座”。
而在具體的超節(jié)點組網(wǎng)應(yīng)用上,該方案也已實質(zhì)性落地。據(jù)合見工軟副總裁楊凱在ICCAD主題演講分享,2024年已有超過10家AI/GPU廠商采用合見的智算互聯(lián)IP完成設(shè)計。其中,國內(nèi)某頭部GPU廠商已采用其IP完成首顆芯片投片及回片測試,各項指標全線達標;同時,該方案也已成功與Broadcom(博通公司)最新TH Ultra交換機完成了組網(wǎng)驗證對接。
“從可用到好用,這是一個非常明確的商業(yè)邏輯?!眳菚灾铱偨Y(jié)道。在國產(chǎn)EDA行業(yè)經(jīng)歷“百家爭鳴”后,市場正在進入“大浪淘沙”的整合期。合見工軟通過緊貼國內(nèi)“超節(jié)點”這一特定場景,不僅解決了客戶“能不能用”的問題,更通過全流程的閉環(huán)驗證,幫助國產(chǎn)芯片廠商在算力擴展的道路上走得更穩(wěn)、更快。
隨著2026年智算芯片預(yù)計迎來的爆發(fā)式增長,這種能夠抹平工藝差距、確保系統(tǒng)級成功的驗證方案,或?qū)⒊蔀閲a(chǎn)算力產(chǎn)業(yè)鏈中不可或缺的基礎(chǔ)設(shè)施。





