安謀科技Arm China開啟“All in AI”戰(zhàn)略,押注本土AI產(chǎn)業(yè)創(chuàng)新
陳鋒表示,中國(guó)市場(chǎng)是安謀科技(Arm China)戰(zhàn)略布局的核心所在。在“AI Arm CHINA”戰(zhàn)略的引領(lǐng)下,公司正積極推動(dòng)Arm全球技術(shù)生態(tài)與本土自主研發(fā)IP的深度融合,全面助力中國(guó)AI計(jì)算生態(tài)的繁榮發(fā)展。
依托“AI Arm CHINA”這一戰(zhàn)略方向,安謀科技的各項(xiàng)自研IP產(chǎn)品在“AI+”領(lǐng)域均取得顯著突破。近期,公司推出了專為大模型優(yōu)化的新一代NPU IP——“周易”X3,聚焦終端側(cè)AI推理,其大模型處理性能較前代提升10倍;而不久前發(fā)布的全新CPU IP“星辰”STAR-MC3,則成功為傳統(tǒng)MCU無(wú)縫注入AI能力,實(shí)現(xiàn)智能化升級(jí)。
在媒體的專訪環(huán)節(jié),安謀科技(Arm China)產(chǎn)品總監(jiān)鮑敏祺進(jìn)一步給媒體分享了公司圍繞AI而生的產(chǎn)品策略。面對(duì)“中外云端算力卡單卡性能5倍差距”的物理現(xiàn)實(shí),以及大模型快速向端側(cè)下沉的趨勢(shì),國(guó)內(nèi)AI產(chǎn)業(yè)或可以通過(guò)安謀科技全新“周易”NPU——“周易”X3,求出一種“基于架構(gòu)創(chuàng)新與云端協(xié)同”的破局新解。
制程受限下的“云端協(xié)同”,亟待解決的大模型落端痛點(diǎn)
在當(dāng)前的AI芯片競(jìng)爭(zhēng)格局中,中美市場(chǎng)的底層邏輯存在顯著差異,算力底座上制程差異導(dǎo)致的性能代差,是所有從業(yè)者必須直面的“房間里的大象”。
國(guó)外大廠的端側(cè)AI演進(jìn),往往伴隨著半導(dǎo)體工藝的最前沿迭代,最先進(jìn)制程已經(jīng)推進(jìn)到3nm。然而,受限于供應(yīng)鏈環(huán)境,國(guó)內(nèi)大算力芯片的主流工藝目前仍集中在6nm水平左右。
“工藝限制是客觀存在的,這直接導(dǎo)致了整體算力規(guī)格的差距,單卡性能差距可能達(dá)到5倍?!滨U敏祺坦言。
這種物理層面的“硬傷”意味著國(guó)內(nèi)廠商不能簡(jiǎn)單照搬國(guó)外的“堆料”模式。鮑敏祺提出的解題思路是“云端協(xié)同的差異化技術(shù)”。在電池技術(shù)未有革命性突破(手機(jī)功耗限制在5W,車載受限于300T算力及BIS限制)的前提下,端側(cè)NPU不再追求像云端那樣無(wú)限堆疊算力,而是通過(guò)高效的架構(gòu),承接云端蒸餾或量化后的模型。中國(guó)龐大的用戶基數(shù)是獨(dú)特的市場(chǎng)優(yōu)勢(shì),這使得云跟端協(xié)同的部署在國(guó)內(nèi)比國(guó)外更具緊迫性和落地價(jià)值。
針對(duì)前段時(shí)間發(fā)布的“周易”X3 NPU IP,鮑敏祺詳解了其背后的技術(shù)取舍。他強(qiáng)調(diào),在同樣的工藝下,基于馮·諾依曼架構(gòu)的芯片在面積和功耗上很難拉開本質(zhì)差距,真正的決勝點(diǎn)在于“產(chǎn)品導(dǎo)向”,特別是對(duì)大模型浮點(diǎn)運(yùn)算精度的支持。
鮑總在專訪環(huán)節(jié)中解釋道,傳統(tǒng)的端側(cè)NPU可能只擅長(zhǎng)跑INT8(整數(shù)),但面對(duì)大模型,精度不夠。安謀科技的“周易”X3 NPU,重點(diǎn)增強(qiáng)了浮點(diǎn)計(jì)算能力,特別是支持了類似 FP8 這種兼顧速度與精度的先進(jìn)格式,并且配合了WC16/W4A8(Weight 4-bit, Activation 8-bit)等混合量化技術(shù)。 這樣最終能夠確保大模型壓縮到端側(cè)后,不僅跑得動(dòng),而且足夠“聰明”,精度沒(méi)有折扣損失。
“真正難的是在量化后的精度下把模型功能跑起來(lái)。”鮑敏祺解釋道。如果只關(guān)注壓縮率而忽視精度,大模型在端側(cè)就會(huì)“變傻”?!爸芤住盭3的核心邏輯,就是通過(guò)軟硬結(jié)合的優(yōu)化,在極度苛刻的端側(cè)功耗限制下,依然保證大模型的推理精度。
端側(cè)模型算法收斂帶來(lái)機(jī)會(huì)窗,但通用性仍必不可少
長(zhǎng)期以來(lái),英偉達(dá)CUDA生態(tài)構(gòu)建的護(hù)城河是國(guó)產(chǎn)AI芯片難以逾越的高墻,但當(dāng)AI走向端側(cè),大模型在端側(cè)落地時(shí),國(guó)內(nèi)AI產(chǎn)業(yè)就有了生態(tài)優(yōu)勢(shì)。當(dāng)前AI技術(shù)范式正在發(fā)生變化,這給ASIC路線帶來(lái)了新機(jī)會(huì)。
過(guò)去在CNN時(shí)代,算子繁多且高度依賴CUDA優(yōu)化,遷移難度極大。但進(jìn)入大模型(Transformer)時(shí)代,底層計(jì)算邏輯變得統(tǒng)一且簡(jiǎn)潔?,F(xiàn)在大模型大概只要支持15個(gè)算子,就可以跑起來(lái)了。這種計(jì)算范式的收斂,極大地降低了國(guó)產(chǎn)NPU適配生態(tài)的門檻。相比于通用性極強(qiáng)但能效有天花板的GPGPU,針對(duì)特定算子優(yōu)化的NPU(ASIC路線)在能效比上更具優(yōu)勢(shì)。當(dāng)場(chǎng)景確定(如推理)、算法收斂時(shí),專用架構(gòu)的效率優(yōu)勢(shì)將最大化。
關(guān)于端側(cè)NPU未來(lái)的演進(jìn)方向,鮑敏祺提出了一個(gè)看似矛盾的觀點(diǎn):為了適應(yīng)未來(lái)的Agentic AI(智能體)和Physical AI(具身智能),NPU需要適當(dāng)“開倒車”——即在追求極致專用效率的同時(shí),回歸一定的通用性。
“周易”X3 NPU架構(gòu)就是這一理念的體現(xiàn),采用“DSP+DSA”的混合架構(gòu):Tensor Core負(fù)責(zé)處理大模型中確定性的矩陣計(jì)算,這部分越強(qiáng)越好,越專用越好。Vector Core負(fù)責(zé)處理通用計(jì)算,解決非標(biāo)準(zhǔn)算子。
“未來(lái)發(fā)展的方向是要更加通用?!滨U敏祺解釋說(shuō),雖然推理可以通過(guò)編譯解決大部分問(wèn)題,但類似DeepSeek等前沿算法的演進(jìn)表明,微觀算子層面對(duì)通用性提出了更高要求。如果在架構(gòu)上只做“偏科”的專用計(jì)算,一旦算法微調(diào),芯片可能就無(wú)法適配。因此,安謀科技在架構(gòu)設(shè)計(jì)上,正試圖在“專用效率”與“通用靈活性”之間尋找新的平衡點(diǎn)。
結(jié)語(yǔ)
從媒體視角觀察,端側(cè)AI加速計(jì)算是一個(gè)明確的“藍(lán)?!辟惖?,而端側(cè)NPU既要有極強(qiáng)的Tensor能力,又必須增強(qiáng)Vector能力。安謀科技的“周易”X3 NPU IP作為公司在“AIl in AI”戰(zhàn)略下的首個(gè)重磅產(chǎn)品,正是完美契合了端側(cè)AI計(jì)算的硬件架構(gòu)要求。不止于此,還在軟件生態(tài)上下足了功夫??梢哉f(shuō),用上了“周易”X3 NPU IP,不僅能幫芯片設(shè)計(jì)公司省時(shí)間,同時(shí)還能幫算法公司解決底層適配麻煩的問(wèn)題。黏合了端側(cè)算法和硬件之間的適配難題。
在采訪最后,鮑敏祺重申了安謀科技“AI Arm China”的戰(zhàn)略定位。作為一家具有雙重屬性的公司,安謀科技一方面繼續(xù)作為橋梁,在國(guó)內(nèi)代理Arm的CPU等IP;另一方面,則通過(guò)自研的“周易”NPU、VPU、DPU等產(chǎn)品線,構(gòu)建本土化的AI解決方案。
“端側(cè)AI時(shí)代已經(jīng)到來(lái)。”鮑敏祺總結(jié)道。在制程追趕尚需時(shí)日的背景下,通過(guò)架構(gòu)創(chuàng)新提升能效,通過(guò)軟件生態(tài)彌補(bǔ)算力短板,或許是國(guó)產(chǎn)芯片在AI下半場(chǎng)突圍的最務(wù)實(shí)路徑。





