日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 芯聞號 > 美通社全球TMT
[導(dǎo)讀]北京2025年11月10日 /美通社/ -- 近日,在2025人工智能計算大會上,浪潮信息公布,基于元腦SD200超節(jié)點AI服務(wù)器,DeepSeek R1大模型token生成速度僅需8.9毫秒,創(chuàng)造國內(nèi)大模型最快token生成速度。 元腦SD200創(chuàng)新設(shè)計滿足低延遲推理需求...

北京2025年11月10日 /美通社/ -- 近日,在2025人工智能計算大會上,浪潮信息公布,基于元腦SD200超節(jié)點AI服務(wù)器,DeepSeek R1大模型token生成速度僅需8.9毫秒,創(chuàng)造國內(nèi)大模型最快token生成速度。

詳解:本土AI超節(jié)點元腦SD200如何率先實現(xiàn)token生成速度8.9ms


元腦SD200創(chuàng)新設(shè)計滿足低延遲推理需求

智能體時代的標志性特征是多模型協(xié)同與實時決策,每個智能體具備感知-決策-執(zhí)行的閉環(huán)能力,涉及復(fù)雜的、多步驟的工作流,需要任務(wù)分解、自主決策以及持續(xù)的規(guī)劃和執(zhí)行。在智能體推理的過程中,即使是單個推理步驟中的延遲也會在多步驟任務(wù)中被指數(shù)級放大,導(dǎo)致用戶體驗遲滯。因此,token生成速度正成為影響用戶評價的一個關(guān)鍵指標。

元腦SD200超節(jié)點AI服務(wù)器基于高帶寬、低延時、原生內(nèi)存語義的開放總線協(xié)議,通過構(gòu)建高性能交換單元打造3D Mesh高性能互連超擴展系統(tǒng),支持64張本土AI芯片高密度算力擴展,能夠很好地滿足DeepSeek等大模型的低延遲推理需求,加快token生成速度。

詳解:本土AI超節(jié)點元腦SD200如何率先實現(xiàn)token生成速度8.9ms


  • 精簡互連協(xié)議:采用事務(wù)層-數(shù)據(jù)鏈路層-物理層三層精簡互連協(xié)議,事務(wù)層天然支持Load/Store內(nèi)存語義;數(shù)據(jù)鏈路層支持基于信用的流控機制和鏈路級錯誤重傳保障;物理層建立10-12低誤碼率的高可靠物理通道,報文有效數(shù)據(jù)利用率達成96%以上。
  • 全局統(tǒng)一編址:為解決跨主機域通信難題,設(shè)計獨立于主機域的交換域全局地址空間,將多個獨立主機域下的GPU在交換域進行統(tǒng)一的顯存編址,為GPU互訪提供基礎(chǔ)保障。
  • 全局地址映射與數(shù)據(jù)路由:創(chuàng)新研發(fā)影子設(shè)備技術(shù),通過影子設(shè)備將遠端GPU映射到本地主機域,實現(xiàn)所有獨立主機對全局GPU的顯存訪問,通過端口高效轉(zhuǎn)發(fā)技術(shù)實現(xiàn)跨主機P2P訪問。

詳解:本土AI超節(jié)點元腦SD200如何率先實現(xiàn)token生成速度8.9ms


定制通信算法深度適配元腦SD200

除了硬件方面的創(chuàng)新,浪潮信息AI團隊也針對DeepSeek、Kimi等模型的計算特征和元腦SD200的硬件架構(gòu)特征,完成了通信庫、計算框架層面等多方面的優(yōu)化,充分發(fā)揮了元腦SD200的計算性能,最終實現(xiàn)了低延遲推理。同時,也支持預(yù)填充-解碼 (Prefill-Decode) 分離推理,在滿足客戶業(yè)務(wù)場景SLO需求的基礎(chǔ)上提供更高性能。

通信庫層面,針對Allreduce、Allgather、Alltoall等典型通信算子,浪潮信息制定了與元腦SD200深度適配的通信算法。例如,對于Allreduce,為了充分發(fā)揮元腦SD200的低延遲優(yōu)勢,專為Allreduce設(shè)計了分層算法策略:針對小數(shù)據(jù)量,采用全量收集,本地規(guī)約的低延遲定制One-Shot算法,旨在最小化GPU間的同步與通信開銷;針對大數(shù)據(jù)量,采用高吞吐的定制化環(huán)形算法,以徹底解決帶寬瓶頸并實現(xiàn)最優(yōu)帶寬利用率。而對于模型應(yīng)用中最常見的中等數(shù)據(jù)量,則采用兼顧延遲與帶寬的定制Two-Shot算法。浪潮信息更結(jié)合芯片緩存特性對此核心場景進行了深度優(yōu)化:對中小數(shù)據(jù)量啟用無緩存方案以追求極致延遲;對中大數(shù)據(jù)量則啟用緩存方案,從而最大化吞吐效率。

實測數(shù)據(jù)表明,在64 GPU集群上進行DeepSeek R1 671B模型的BF16推理時,針對Batch Size為1的decode階段(其Allreduce數(shù)據(jù)量約為14 KB),優(yōu)化后的算法將通信時延降低了5.8倍。此外,在16 KB至16 MB這一核心數(shù)據(jù)量區(qū)間內(nèi),定制優(yōu)化算法的通信時延相較于未優(yōu)化前的實現(xiàn)降低了1.6至5.8倍;與傳統(tǒng)scale-out系統(tǒng)相比,時延降低幅度則進一步擴大至4.5至12.7倍。

全方位框架優(yōu)化保障計算低延遲

框架層面,浪潮信息AI團隊完成了并行方式、算子融合、多流水線等多方面優(yōu)化,來保證計算的低延遲。

首先,在并行方式上,選擇了整網(wǎng)的張量并行。在此并行模式下,通過模型均勻切分實現(xiàn)了設(shè)備間計算負載的完全均衡、各個計算板卡之間計算的完全并行和同步,消除了流水線氣泡與負載不均衡問題。同時,元腦SD200的高帶寬、低延遲確保了AllReduce、AllGather等通信算子性能的大幅提升,使得通信時間大幅下降,從而實現(xiàn)了超低延遲的推理性能。

其次,在算子上,實現(xiàn)了極致的算子融合等優(yōu)化。GPU的計算速度遠遠超過了內(nèi)存帶寬的訪問速度,從內(nèi)存中讀寫數(shù)據(jù)的時間成本,大部分時候比實際進行計算的時間成本還要高。算子融合可以通過減少不必要的內(nèi)存讀寫和計算開銷,來顯著提升推理速度、降低延遲并減少內(nèi)存占用,所以基于SGlang框架的已有實現(xiàn),進行了多個算子的融合。

  • 對MLA模塊中attn_mla計算前的算子進行融合,該融合算子以Query和Key向量進行RMSnorm計算后的輸出為輸入,以attn_mla計算的輸入q_input、k_input、v_input等為輸出,包含bmm計算、rotary_emb計算以及向量拆分轉(zhuǎn)置等計算;
  • RMSNorm和add計算融合;
  • 實現(xiàn)int8精度的量化和RMSNorm、silu等激活函數(shù)的融合;
  • 將路由專家分組選擇中多個算子的融合為一個算子。

最后,也進行了多stream的優(yōu)化。多個算子計算時,默認在單stream模式下,所有操作都排成一條隊,一個接一個地執(zhí)行。當算子本身的計算量不是很大時,會導(dǎo)致GPU的部分硬件單元在計算時處于空閑狀態(tài),也就浪費了計算資源。多stream優(yōu)化就是為了讓這些硬件單元"同時忙起來",對于相互之間沒有依賴關(guān)系的操作,可以放到不同的stream中并行執(zhí)行,提高硬件的利用效率,同時減小整體的計算時間。在多stream并行優(yōu)化方面,浪潮信息實現(xiàn)了MLA層的多個layernorm計算的并行,并實現(xiàn)了MoE階段和共享專家計算和路由專家分組選擇的并行等,實現(xiàn)了約10%的性能提升。

預(yù)填充-解碼分離軟件提高整體計算性能

此外,浪潮信息開發(fā)了預(yù)填充-解碼 (Prefill-Decode) 分離軟件,針對預(yù)填充與解碼不同的計算特性,使用不同的并行計算策略、硬件配置等,提高系統(tǒng)整體的計算性能。同時在業(yè)務(wù)部署中,支持節(jié)點服務(wù)的動態(tài)擴展;支持利用負載均衡和鍵值緩存(KV cache)命中率進行任務(wù)分配,把任務(wù)下發(fā)到鍵值緩存匹配度相對較高、任務(wù)負載相對較小的節(jié)點,減少重復(fù)計算,同時最大化計算資源利用率。另外,PD分離軟件還實現(xiàn)了鍵值緩存offload技術(shù),可把鍵值緩存到CPU端內(nèi)存與分布式存儲系統(tǒng)上,增大緩存空間。

詳解:本土AI超節(jié)點元腦SD200如何率先實現(xiàn)token生成速度8.9ms


元腦SD200超節(jié)點AI服務(wù)器通過高帶寬和超低延遲通信、超大顯存池、智能路由優(yōu)化、PD分離推理等創(chuàng)新技術(shù),大幅提升了DeepSeek、Kimi等大模型的推理輸出速度。元腦SD200搭載64張本土AI芯片運行DeepSeek R1大模型,當輸入長度為4096、輸出長度為1024時,單用戶token生成達到112 tokens/s,每token生成時間僅為8.9ms,率先實現(xiàn)國內(nèi)AI服務(wù)器token生成速度低于10ms,將推動萬億參數(shù)大模型在金融、科研、智能制造等領(lǐng)域快速落地。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除( 郵箱:macysun@21ic.com )。
換一批
延伸閱讀

特朗普集團近日取消了其新推出的T1智能手機“將在美國制造”的宣傳標語,此舉源于外界對這款手機能否以當前定價在美國本土生產(chǎn)的質(zhì)疑。

關(guān)鍵字: 特朗普 蘋果 AI

美國總統(tǒng)特朗普在公開場合表示,他已要求蘋果公司CEO蒂姆·庫克停止在印度建廠,矛頭直指該公司生產(chǎn)多元化的計劃。

關(guān)鍵字: 特朗普 蘋果 AI

4月10日消息,據(jù)媒體報道,美國總統(tǒng)特朗普宣布,美國對部分貿(mào)易伙伴暫停90天執(zhí)行新關(guān)稅政策,同時對中國的關(guān)稅提高到125%,該消息公布后蘋果股價飆升了15%。這次反彈使蘋果市值增加了4000多億美元,目前蘋果市值接近3萬...

關(guān)鍵字: 特朗普 AI 人工智能 特斯拉

3月25日消息,據(jù)報道,當?shù)貢r間3月20日,美國總統(tǒng)特朗普在社交媒體平臺“真實社交”上發(fā)文寫道:“那些被抓到破壞特斯拉的人,將有很大可能被判入獄長達20年,這包括資助(破壞特斯拉汽車)者,我們正在尋找你?!?/p> 關(guān)鍵字: 特朗普 AI 人工智能 特斯拉

1月22日消息,剛剛,新任美國總統(tǒng)特朗普放出重磅消息,將全力支持美國AI發(fā)展。

關(guān)鍵字: 特朗普 AI 人工智能

特朗普先生有兩件事一定會載入史冊,一個是筑墻,一個是挖坑。在美墨邊境筑墻的口號確保邊境安全,降低因非法移民引起的犯罪率過高問題;在中美科技產(chǎn)業(yè)之間挖坑的口號也是安全,美國企業(yè)不得使用對美國國家安全構(gòu)成威脅的電信設(shè)備,總統(tǒng)...

關(guān)鍵字: 特朗普 孤立主義 科技產(chǎn)業(yè)

據(jù)路透社1月17日消息顯示,知情人士透露,特朗普已通知英特爾、鎧俠在內(nèi)的幾家華為供應(yīng)商,將要撤銷其對華為的出貨的部分許可證,同時將拒絕其他數(shù)十個向華為供貨的申請。據(jù)透露,共有4家公司的8份許可被撤銷。另外,相關(guān)公司收到撤...

關(guān)鍵字: 華為 芯片 特朗普

曾在2018年時被美國總統(tǒng)特朗普稱作“世界第八奇跡”的富士康集團在美國威斯康星州投資建設(shè)的LCD顯示屏工廠項目,如今卻因為富士康將項目大幅縮水并拒絕簽訂新的合同而陷入了僵局。這也導(dǎo)致富士康無法從當?shù)卣抢铽@得約40億美...

關(guān)鍵字: 特朗普 富士康

今年5月,因自己發(fā)布的推文被貼上“無確鑿依據(jù)”標簽而與推特發(fā)生激烈爭執(zhí)后,美國總統(tǒng)特朗普簽署了一項行政令,下令要求重審《通信規(guī)范法》第230條。

關(guān)鍵字: 谷歌 facebook 特朗普

眾所周知,寄往白宮的所有郵件在到達白宮之前都會在他地進行分類和篩選。9月19日,根據(jù)美國相關(guān)執(zhí)法官員的通報,本周早些時候,執(zhí)法人員截獲了一個寄給特朗普總統(tǒng)的包裹,該包裹內(nèi)包含蓖麻毒蛋白。

關(guān)鍵字: 美國 白宮 特朗普
關(guān)閉