隨著人工智能模型的快速增長,急劇推動了超級計算機(jī)的需求
11月16日消息,英偉達(dá)當(dāng)?shù)貢r間周三宣布與微軟簽署一項(xiàng)多年合作協(xié)議,共同開發(fā)人工智能超級計算機(jī)。英偉達(dá)表示,這款人工智能設(shè)備將是微軟Azure先進(jìn)超級計算基礎(chǔ)設(shè)施和英偉達(dá)的網(wǎng)絡(luò)和全棧人工智能軟件的結(jié)果。
根據(jù)聲明,英偉達(dá)將使用Azure的可擴(kuò)展虛擬機(jī)實(shí)例來研究和實(shí)現(xiàn)生成式人工智能的進(jìn)展,兩家公司將合作改進(jìn)微軟的DeepSpeed深度學(xué)習(xí)優(yōu)化軟件。
超級計算機(jī)(Super computer),是指能夠執(zhí)行一般個人電腦無法處理的大量資料與高速運(yùn)算的電腦。就超級計算機(jī)和普通計算機(jī)的組成而言,構(gòu)成組件基本相同,但在性能和規(guī)模方面卻有差異。超級計算機(jī)主要特點(diǎn)包含兩個方面:極大的數(shù)據(jù)存儲容量和極快速的數(shù)據(jù)處理速度,因此它可以在多種領(lǐng)域進(jìn)行一些人們或者普通計算機(jī)無法進(jìn)行的工作。
了解到,這臺人工智能計算機(jī)將在微軟的 Azure 云上運(yùn)行,使用數(shù)以萬計的圖形處理單元(GPU)、英偉達(dá)最強(qiáng)大的 H100 及其 A100 芯片。Nvidia 拒絕透露這筆交易的價值,但業(yè)內(nèi)人士表示,每顆 A100 芯片的價格約為 1 萬至 1.2 萬美元,而 H100 的價格則遠(yuǎn)高于此。
除了向微軟出售芯片外,英偉達(dá)表示還將與這家軟件和云計算巨頭合作開發(fā) AI 模型。英偉達(dá)還將成為微軟 AI 云計算機(jī)的客戶,并在上面開發(fā) AI 應(yīng)用,向客戶提供服務(wù)。
諸如用于自然語言處理的人工智能模型的快速增長,急劇推動了對更快、更強(qiáng)大的計算基礎(chǔ)設(shè)施的需求。
英偉達(dá)表示,Azure 將是第一個使用其 Quantum-2 InfiniBand 網(wǎng)絡(luò)技術(shù)的公共云,其速度為每秒 400 吉比特,這種網(wǎng)絡(luò)技術(shù)以高速連接服務(wù)器,這非常重要,因?yàn)榉敝氐娜斯ぶ悄苡嬎愎ぷ餍枰汕先f的芯片在幾臺服務(wù)器上協(xié)同工作。
天,微軟和英偉達(dá)宣布建立多年的合作關(guān)系,為 Azure 客戶開發(fā)新型的 AI 人工智能云端超級計算機(jī),由英偉達(dá) GPU 技術(shù)驅(qū)動。
利用“數(shù)以萬計”的英偉達(dá) GPU 性能顯卡(英偉達(dá)最強(qiáng)大的 H100 和 A100 芯片,消息人士稱每款 A100 芯片價格約為 1 萬-1.2 萬美元,而 H100 芯片價格遠(yuǎn)高于此)、400Gb / s 的 Quantum-2 InfiniBand 網(wǎng)絡(luò)以及英偉達(dá)新生的人工智能平臺,兩家公司旨在加快推出和開發(fā)由英偉達(dá)技術(shù)和微軟云計算驅(qū)動的基于人工智能的工具和應(yīng)用程序。這是英偉達(dá)首次與微軟 Azure 合作,向公眾提供其云端人工智能基礎(chǔ)設(shè)施的全部堆棧。
隨著英偉達(dá)的硬件影響力逐步擴(kuò)大,微軟 Azure 將在虛擬機(jī)實(shí)例中帶來其獨(dú)特的全球可擴(kuò)展性,英偉達(dá)表示這將有助于加快各種人工智能工具的訓(xùn)練和部署。英偉達(dá)表示,像 Megatron Turing NLG 530B 這樣的基礎(chǔ)模型將在該計劃下得到快速發(fā)展,其目標(biāo)是開發(fā)用于構(gòu)建代碼、文本、數(shù)字圖像、音頻和視頻的“無監(jiān)管”自我學(xué)習(xí)算法。英偉達(dá)和微軟還將在 Microsoft DeepSpeed 算法完善平臺上進(jìn)行合作,該平臺旨在幫助人工智能實(shí)例更快速地進(jìn)行自我學(xué)習(xí)。
微軟負(fù)責(zé)云計算和人工智能的執(zhí)行副總裁 Scott Guthrie 對這一合作關(guān)系表示歡迎,因?yàn)閮杉夜緦⒑献魈剿髯詣踊袠I(yè)的下一個浪潮?!叭斯ぶ悄苷谕苿诱麄€企業(yè)和工業(yè)計算的下一波自動化浪潮,使企業(yè)在應(yīng)對經(jīng)濟(jì)不確定性時能夠事半功倍。我們與英偉達(dá)的合作解鎖了世界上最具擴(kuò)展性的超級計算機(jī)平臺,在微軟 Azure 上為每個企業(yè)提供最先進(jìn)的 AI 能力?!?
IT之家獲悉,近年來,微軟對開發(fā)人工智能平臺的興趣一直在成倍增加。微軟在其整個投資組合中都有內(nèi)部團(tuán)隊(duì)在探索如何在幾乎每個產(chǎn)品組中納入人工智能自學(xué)算法。比如,GitHub 和 Visual Studio 中出現(xiàn)了 Copilot 編程編輯。還看到了人工智能如何增強(qiáng)和加快 Xbox 和 PC 游戲的開發(fā),將密集的任務(wù)交給人工智能。當(dāng)然,還看到了一堆令人毛骨悚然的人工智能生成的圖像,這些圖像雖然有趣,但也引起了盜版的爭議問題,因?yàn)槿斯ぶ悄苁褂谜鎸?shí)世界的藝術(shù)來訓(xùn)練自己。
Cerebras宣布,推出Andromeda,這是一款擁有1350萬核心的AI超級計算機(jī),部署于美國加利福尼亞州圣克拉拉的數(shù)據(jù)中心,現(xiàn)已用于商業(yè)和學(xué)術(shù)工作。其采用了16個Cerebras CS-2系統(tǒng)集群構(gòu)建,并利用Cerebras MemoryX和SwarmX技術(shù)簡化和協(xié)調(diào)跨系統(tǒng)的模型拆分,以16位半精度提供超過1 Exaflop的AI計算和120 Petaflops的密集計算。
Cerebras稱,Andromeda基于AMD第三代EPYC服務(wù)器處理器,以及Cerebras的Wafer Scale Engine 2構(gòu)建,是唯一一臺僅依靠簡單數(shù)據(jù)并行性在大型語言模型工作負(fù)載上展示近乎完美的線性擴(kuò)展的AI超級計算機(jī),在GPT類大型語言模型里幾乎呈線性擴(kuò)展,這效率是標(biāo)準(zhǔn)GPU集群所無法比擬的。
Wafer Scale Engine 2是世界上尺寸最大的單顆裸片,面積為462.25平方厘米,幾乎等于一塊12英寸晶圓。其擁有850000個AI內(nèi)核,2.6萬億個晶體管,配備了40GB的SRAM,提供了20 PB/s緩存帶寬和220 Pb/s互聯(lián)帶寬,采用臺積電7nm工藝制造。這些芯片將分布在16個機(jī)架的124個服務(wù)器節(jié)點(diǎn)上,通過100 GbE網(wǎng)絡(luò)連接,并由284個AMD第三代EPYC服務(wù)器處理器提供支持,均為64核心128線程規(guī)格,總有18176個核心。
Andromeda整個系統(tǒng)的功耗為500KW,比采用GPU加速的超級計算機(jī)的功耗要低得多。這樣的設(shè)計并不是完美無缺,在這種大規(guī)模并行的超級計算機(jī)上擴(kuò)展工作負(fù)載長期以來都是制約其發(fā)展的因素之一,某些情況下擴(kuò)展很容易會崩潰,因此添加更多硬件會導(dǎo)致回報迅速減少。





