當(dāng)前位置：首頁 > > 新基建

原創(chuàng)

人工智能機(jī)器學(xué)習(xí)在單處理器上訓(xùn)練 200 億參數(shù)的 AI 模型

時間：2022-09-21 09:30:01

關(guān)鍵字：人工智能機(jī)器學(xué)習(xí) AI 模型

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]Cerebras 展示了其第二代晶圓級引擎的功能，宣布它創(chuàng)造了有史以來在單個設(shè)備上訓(xùn)練的最大 AI 模型的記錄。首次在單臺設(shè)備上訓(xùn)練了具有 200 億個參數(shù)的自然語言處理網(wǎng)絡(luò) GPT-NeoX 20B。這就是為什么這很重要。

Cerebras 展示了其第二代晶圓級引擎的功能，宣布它創(chuàng)造了有史以來在單個設(shè)備上訓(xùn)練的最大 AI 模型的記錄。

首次在單臺設(shè)備上訓(xùn)練了具有 200 億個參數(shù)的自然語言處理網(wǎng)絡(luò) GPT-NeoX 20B。這就是為什么這很重要。

為什么我們需要訓(xùn)練這么大的模型?

一種新型的神經(jīng)網(wǎng)絡(luò)，變壓器，正在接管。如今，Transformer 主要用于自然語言處理 (NLP)，其注意力機(jī)制可以幫助發(fā)現(xiàn)句子中單詞之間的關(guān)系，但它們正在擴(kuò)展到其他 AI 應(yīng)用程序，包括視覺。變壓器越大，精度越高。語言模型現(xiàn)在通常有數(shù)十億個參數(shù)，并且它們正在迅速增長，沒有任何放緩的跡象。

使用大型變壓器的一個關(guān)鍵領(lǐng)域是在醫(yī)學(xué)研究中的應(yīng)用，例如表觀基因組學(xué)，它們被用來模擬基因的“語言”——DNA序列。

為什么這在單個設(shè)備上完成很重要?

今天的大型模型大多使用多處理器系統(tǒng)進(jìn)行訓(xùn)練，通常是 GPU。Cerebras 表示，它的客戶發(fā)現(xiàn)在數(shù)百個處理器上劃分巨大的模型是一個耗時的過程，這對于每個模型和每個特定的多處理器系統(tǒng)都是獨一無二的，基于模型的屬性和每個處理器的特性(即，什么它是一種處理器，它有多少內(nèi)存)和 I/O 網(wǎng)絡(luò)的特性。這項工作不能移植到其他模型或系統(tǒng)。

通常對于多處理器系統(tǒng)，有三種類型的并行在起作用：

· 如果模型適合單個處理器，則可以將其復(fù)制到其他處理器上，并且每個處理器都使用數(shù)據(jù)子集進(jìn)行訓(xùn)練——這稱為數(shù)據(jù)并行性，相對簡單。

· 如果模型不適合一個處理器，則模型可以在處理器之間拆分，每個處理器上運(yùn)行一個或多個層——這稱為流水線模型并行性。但是，這些層需要按順序運(yùn)行，因此用戶必須手動評估每層需要多少內(nèi)存和 I/O，以確保沒有瓶頸。它比數(shù)據(jù)并行更復(fù)雜。

· 如果模型的一層太大以至于它無法容納在一個處理器上，它甚至?xí)訌?fù)雜。張量模型并行性必須用于跨處理器拆分層，增加了另一個維度的復(fù)雜性，這也會對內(nèi)存和 I/O 帶寬造成壓力。

大型模型，例如 Cerebras 公告中的 GPT-NeoX 20B，需要所有三種類型的并行性進(jìn)行訓(xùn)練。

Cerebras 的 CS-2 避免了模型并行化的需要，部分原因在于其處理器的龐大尺寸——它實際上是一個巨大的850,000 核處理器，位于單個晶圓大小的芯片上，足以容納最大的網(wǎng)絡(luò)層——部分原因是 Cerebras從計算中分離出內(nèi)存?？梢蕴砑痈鄡?nèi)存來支持更多參數(shù)，而無需添加更多計算，從而保持系統(tǒng)計算部分的架構(gòu)相同。

無需使用并行性，無需花費時間和資源手動劃分模型以在多處理器系統(tǒng)上運(yùn)行。此外，如果沒有流程的定制部分，模型變得可移植。在具有多個參數(shù)的 GPT 模型之間進(jìn)行更改只需更改一個文件中的四個變量。類似地，在 GPT-J 和 GPT-Neo 之間切換也只需要幾次按鍵。據(jù) Cerebras 稱，這可以節(jié)省數(shù)月的工程時間。

對更廣泛的行業(yè)有何影響?

NLP 模型已經(jīng)變得如此龐大，以至于在實踐中，只有少數(shù)公司擁有足夠的資源——無論是計算成本還是工程時間——來訓(xùn)練它們。

Cerebras 希望通過在云中提供其 CS-2 系統(tǒng)，以及幫助客戶減少所需的工程時間和資源，它可以為更多的公司提供大規(guī)模的模型培訓(xùn)，即使是那些沒有龐大系統(tǒng)工程團(tuán)隊的公司. 這包括加速科學(xué)和醫(yī)學(xué)研究以及 NLP。

單個 CS-2 可以訓(xùn)練具有數(shù)千億甚至數(shù)萬億參數(shù)的模型，因此對于未來的巨大網(wǎng)絡(luò)以及今天的網(wǎng)絡(luò)來說，都有足夠的空間。

CEREBRAS 有真實世界的例子嗎?

生物制藥公司艾伯維(AbbVie)正在使用 CS-2 進(jìn)行生物醫(yī)學(xué) NLP 轉(zhuǎn)換器培訓(xùn)，這為公司的翻譯服務(wù)提供支持，使龐大的生物醫(yī)學(xué)文獻(xiàn)庫可跨 180 種語言進(jìn)行搜索。

“我們在編程和訓(xùn)練 BERT LARGE模型時遇到的一個常見挑戰(zhàn)是在足夠長的時間內(nèi)提供足夠的 GPU 集群資源，”生物制藥公司 AbbVie 的人工智能負(fù)責(zé)人 Brian Martin 在一份聲明中說?！癈S-2 系統(tǒng)將提供可緩解大部分挑戰(zhàn)的掛鐘改進(jìn)，同時提供更簡單的編程模型，通過使我們的團(tuán)隊能夠更快地迭代和測試更多想法來加速我們的交付。”

葛蘭素史克公司使用第一代 Cerebras 系統(tǒng) CS-1 進(jìn)行表觀基因組學(xué)研究。該系統(tǒng)啟用了使用數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)，否則該數(shù)據(jù)集會非常大。

GSK 人工智能和機(jī)器學(xué)習(xí)高級副總裁 Kim Branson 在一份聲明中說：“葛蘭素史克通過其基因組和基因研究生成了極其龐大的數(shù)據(jù)集，這些數(shù)據(jù)集需要新的設(shè)備來進(jìn)行機(jī)器學(xué)習(xí)。” “Cerebras CS-2 是一個關(guān)鍵組件，它允許 GSK 使用以前無法達(dá)到的規(guī)模和大小的生物數(shù)據(jù)集訓(xùn)練語言模型。這些基礎(chǔ)模型構(gòu)成了我們許多人工智能系統(tǒng)的基礎(chǔ)，并在發(fā)現(xiàn)轉(zhuǎn)化藥物方面發(fā)揮著至關(guān)重要的作用?！?

其他 Cerebras 用戶包括 TotalEnergies，他們使用 CS-2 加速電池、生物燃料、風(fēng)流、鉆井和 CO 2儲存的模擬;國家能源技術(shù)實驗室使用 CS-2 加速基于物理的計算流體動力學(xué);阿貢國家實驗室一直在使用 CS-1 進(jìn)行 Covid-19 研究和抗癌藥物;還有更多的例子。

聲明：該篇文章為本站原創(chuàng)，未經(jīng)授權(quán)不予轉(zhuǎn)載，侵權(quán)必究。

換一批

與傳統(tǒng)的驅(qū)動方式相比，共陰恒流驅(qū)動在能效有哪些優(yōu)勢

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動電源

[電源]

工業(yè)電機(jī)驅(qū)動電源設(shè)計：反電動勢抑制與過流保護(hù)的集成方案

在工業(yè)自動化蓬勃發(fā)展的當(dāng)下，工業(yè)電機(jī)作為核心動力設(shè)備，其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動勢抑制與過流保護(hù)是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié)，集成化方案的設(shè)計成為提升電機(jī)驅(qū)動性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機(jī) 驅(qū)動電源

[電源]

如何解決 LED 驅(qū)動電源的易損壞問題

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而，在實際應(yīng)用中，LED 驅(qū)動電源易損壞的問題卻十分常見，不僅增加了維護(hù)成本，還影響了用戶體驗。要解決這一問題，需從設(shè)計、生...

關(guān)鍵字：驅(qū)動電源照明系統(tǒng) 散熱

[電力電工電路]

LED設(shè)計中LED驅(qū)動電源的公式

根據(jù)LED驅(qū)動電源的公式，電感內(nèi)電流波動大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設(shè)計驅(qū)動電源

[汽車電子]

EV主驅(qū)IGBT隔離驅(qū)動電源方案選擇問題探討

電動汽車(EV)作為新能源汽車的重要代表，正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機(jī)驅(qū)動控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字：電動汽車新能源驅(qū)動電源

[電源]

合理的驅(qū)動電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設(shè)中，街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步，高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動電源 LED

[消費電子]