算力“突圍”戰(zhàn),國(guó)產(chǎn)芯片如何跨越“千卡超節(jié)點(diǎn)”的驗(yàn)證鴻溝?
掃描二維碼
隨時(shí)隨地手機(jī)看文章
在先進(jìn)制程受限的當(dāng)下,中國(guó)AI計(jì)算芯片產(chǎn)業(yè)正經(jīng)歷著一場(chǎng)從“單點(diǎn)對(duì)決”到“集群突圍”的范式轉(zhuǎn)移。
全球AI競(jìng)賽進(jìn)入“千卡級(jí)”規(guī)模訓(xùn)練集群,算力的指數(shù)級(jí)增長(zhǎng)并未自動(dòng)轉(zhuǎn)化為系統(tǒng)效能的線性提升——想象一個(gè)由上千顆AI芯片組成的超節(jié)點(diǎn),每顆芯片都在高速運(yùn)轉(zhuǎn),卻因互聯(lián)效率低下而“各自為戰(zhàn)”——這正是當(dāng)前中國(guó)智算系統(tǒng)面臨的現(xiàn)實(shí)困境——互聯(lián)架構(gòu)正成為制約中國(guó)智算芯片規(guī)?;渴鸬年P(guān)鍵瓶頸。
可以說(shuō),沒(méi)有高效的互聯(lián),就沒(méi)有真正的千卡超節(jié)點(diǎn)。如何跨越從單卡到千卡超節(jié)點(diǎn)的技術(shù)鴻溝?上海合見(jiàn)工業(yè)軟件集團(tuán)有限公司(下文簡(jiǎn)稱“合見(jiàn)工軟”)直面這一挑戰(zhàn),在ICCAD2025上給出了答案。
展會(huì)期間,合見(jiàn)工軟展臺(tái)集中亮相了一套覆蓋智算互聯(lián)IP庫(kù)與組網(wǎng)驗(yàn)證平臺(tái)的完整技術(shù)棧及配套硬件平臺(tái)。公司副總裁吳曉忠也在媒體專訪中深入闡釋了該方案如何打通從芯片到系統(tǒng)級(jí)驗(yàn)證的全鏈路,加速千卡超節(jié)點(diǎn)從概念走向落地。
算力新范式:用“堆疊+組網(wǎng)”對(duì)抗先進(jìn)制程短板
“境外的先進(jìn)工藝無(wú)法獲得,境內(nèi)受限于制造水平,單芯片面積無(wú)法做大。但在國(guó)內(nèi)電力供應(yīng)相對(duì)充足的背景下,通過(guò)‘堆疊+組網(wǎng)’的方式去換取算力,是一個(gè)必然的競(jìng)爭(zhēng)趨勢(shì)。”吳曉忠在采訪中一針見(jiàn)血地指出了當(dāng)前國(guó)產(chǎn)算力的生存與發(fā)展邏輯。
客觀數(shù)據(jù)顯示,國(guó)內(nèi)主流智算芯片制程尚處于12nm與7nm的迭代階段,而北美頭部廠商已演進(jìn)至5nm/4nm甚至更先進(jìn)制程。受限于此,國(guó)產(chǎn)芯片在單卡算力密度、內(nèi)存帶寬尤其是Scale-up(垂直擴(kuò)展)帶寬方面,約為北美同類產(chǎn)品的40%。
如何彌補(bǔ)這巨大的差距?答案在于超節(jié)點(diǎn)。
吳曉忠以華為在今年7月發(fā)布的CloudMatrix架構(gòu)為例,形象地解釋了這一路徑的可行性:“雖然單卡算力約為Nvidia產(chǎn)品的40%,但通過(guò)384張卡組成超節(jié)點(diǎn)集群,最終實(shí)現(xiàn)了相當(dāng)于NV72架構(gòu)1.7倍的算力。”這種“多卡如一卡”的架構(gòu)創(chuàng)新,證明了通過(guò)大規(guī)模互聯(lián)提升系統(tǒng)級(jí)性能,是國(guó)產(chǎn)芯片突圍的有效路徑。
行業(yè)預(yù)測(cè),2025年中國(guó)智算芯片將全面邁入“千卡時(shí)代”。一個(gè)典型的基于51.2T交換芯片實(shí)現(xiàn)的1024卡全互聯(lián)超節(jié)點(diǎn),需要滿足極低延遲(端到端跨交換機(jī)延遲約400納秒)和極高可靠性。然而,這一愿景的落地,正面臨著巨大的工程挑戰(zhàn)。
邁入“千卡時(shí)代”:協(xié)議碎片化下的驗(yàn)證困境
“涉及超節(jié)點(diǎn),基本上就是多卡互聯(lián)。但目前市面上沒(méi)有任何一家的硬件仿真平臺(tái),能夠把整個(gè)超節(jié)點(diǎn)的設(shè)計(jì)一次性放進(jìn)去,都需要做裁剪?!眳菚灾抑赋隽水?dāng)前EDA驗(yàn)證領(lǐng)域面臨的物理瓶頸。
更為棘手的是協(xié)議的碎片化。與國(guó)外相對(duì)統(tǒng)一的標(biāo)準(zhǔn)不同,國(guó)內(nèi)Scale-up協(xié)議呈現(xiàn)出高度離散的狀態(tài)?!叭A為、阿里、中國(guó)移動(dòng)等都在推動(dòng)各自的標(biāo)準(zhǔn)協(xié)議?!眳菚灾冶硎?,包括國(guó)際上并存著NvLink類、CXL、SUE以及各家私有協(xié)議,且更新極快。
這種現(xiàn)狀給芯片設(shè)計(jì)公司帶來(lái)了巨大的風(fēng)險(xiǎn):
·驗(yàn)證盲區(qū): 算力芯片與交換芯片屬于異構(gòu)互聯(lián),如果在設(shè)計(jì)階段無(wú)法進(jìn)行互聯(lián)互通測(cè)試,投片后一旦發(fā)現(xiàn)協(xié)議不匹配,將面臨巨大的沉沒(méi)成本。
·透明度難題: 超節(jié)點(diǎn)要求做到對(duì)使用者“無(wú)感”,即數(shù)百?gòu)埧ㄏ褚粡埧ㄒ粯庸ぷ鳌_@對(duì)配套軟件和互聯(lián)IP的驗(yàn)證要求極高,特別是在組網(wǎng)過(guò)程中,芯片與以太網(wǎng)連接部分的驗(yàn)證負(fù)荷極重。
對(duì)此,合見(jiàn)工軟提出了一種“既全且深”的解題思路——不僅提供工具,更提供連接真實(shí)世界的“橋梁”。
破局之道:從高性能IP到“真機(jī)”實(shí)戰(zhàn)的閉環(huán)
面對(duì)“有協(xié)議無(wú)標(biāo)準(zhǔn)產(chǎn)品”和“仿真難”的痛點(diǎn),合見(jiàn)工軟展示了一套包含IP、硬件驗(yàn)證系統(tǒng)及封測(cè)和設(shè)計(jì)服務(wù)的組合拳。
首先是高性能互聯(lián)IP的底層支撐。 據(jù)合見(jiàn)工軟副總裁楊凱分享,合見(jiàn)工軟已構(gòu)建了支持內(nèi)存語(yǔ)義和消息語(yǔ)義的超節(jié)點(diǎn)IP庫(kù)。在7nm工藝下,其400G SUE Lite版本數(shù)字部分面積僅為0.76平方毫米,卡間直連延遲低于130納秒。這套IP不僅支持ETH、RDMA等主流協(xié)議,還針對(duì)國(guó)內(nèi)特定的Scale-up場(chǎng)景進(jìn)行了深度優(yōu)化,目前在國(guó)內(nèi)同類IP市場(chǎng)中占據(jù)領(lǐng)先地位。
其次是獨(dú)創(chuàng)的“真機(jī)”組網(wǎng)驗(yàn)證平臺(tái)。 “我們是目前唯一一家既有超節(jié)點(diǎn)互聯(lián)IP,又能做到大規(guī)模互聯(lián)驗(yàn)證的公司?!眳菚灾覐?qiáng)調(diào)了合見(jiàn)工軟的差異化優(yōu)勢(shì)。
為了解決仿真環(huán)境與真實(shí)部署環(huán)境脫節(jié)的問(wèn)題,合見(jiàn)工軟打通了FPGA原型驗(yàn)證系統(tǒng)與真實(shí)交換機(jī)的連接。其驗(yàn)證平臺(tái)可以直接對(duì)接博通、華為等主流廠商的51.2T以太網(wǎng)交換機(jī)。通過(guò)內(nèi)置的Scale-Up Suite,平臺(tái)能將原型中的低速信號(hào)轉(zhuǎn)換為全速400G流量,在芯片流片前就完成全速功能的互聯(lián)互通測(cè)試。
這種“真刀真槍”的驗(yàn)證方式市場(chǎng)反饋如何?答案建立在堅(jiān)實(shí)的“信任基座”與“前沿落地”之上。
從基礎(chǔ)工具鏈的維度看,合見(jiàn)工軟已獲得了市場(chǎng)的廣泛信任。吳曉忠透露,過(guò)去三年,其硬件驗(yàn)證產(chǎn)品(UV APS/UVHS系列)累計(jì)出貨量已超過(guò)1000臺(tái);而數(shù)字仿真軟件UVS也在客戶處經(jīng)歷了50多個(gè)項(xiàng)目、200多萬(wàn)個(gè)測(cè)試場(chǎng)景用例的打磨。這些龐大的存量市場(chǎng)和經(jīng)過(guò)驗(yàn)證的穩(wěn)定性,為復(fù)雜的超節(jié)點(diǎn)組網(wǎng)方案提供了可靠的“底座”。
而在具體的超節(jié)點(diǎn)組網(wǎng)應(yīng)用上,該方案也已實(shí)質(zhì)性落地。據(jù)合見(jiàn)工軟副總裁楊凱在ICCAD主題演講分享,2024年已有超過(guò)10家AI/GPU廠商采用合見(jiàn)的智算互聯(lián)IP完成設(shè)計(jì)。其中,國(guó)內(nèi)某頭部GPU廠商已采用其IP完成首顆芯片投片及回片測(cè)試,各項(xiàng)指標(biāo)全線達(dá)標(biāo);同時(shí),該方案也已成功與Broadcom(博通公司)最新TH Ultra交換機(jī)完成了組網(wǎng)驗(yàn)證對(duì)接。
“從可用到好用,這是一個(gè)非常明確的商業(yè)邏輯?!眳菚灾铱偨Y(jié)道。在國(guó)產(chǎn)EDA行業(yè)經(jīng)歷“百家爭(zhēng)鳴”后,市場(chǎng)正在進(jìn)入“大浪淘沙”的整合期。合見(jiàn)工軟通過(guò)緊貼國(guó)內(nèi)“超節(jié)點(diǎn)”這一特定場(chǎng)景,不僅解決了客戶“能不能用”的問(wèn)題,更通過(guò)全流程的閉環(huán)驗(yàn)證,幫助國(guó)產(chǎn)芯片廠商在算力擴(kuò)展的道路上走得更穩(wěn)、更快。
隨著2026年智算芯片預(yù)計(jì)迎來(lái)的爆發(fā)式增長(zhǎng),這種能夠抹平工藝差距、確保系統(tǒng)級(jí)成功的驗(yàn)證方案,或?qū)⒊蔀閲?guó)產(chǎn)算力產(chǎn)業(yè)鏈中不可或缺的基礎(chǔ)設(shè)施。





