人工智能機器學習在單處理器上訓練 200 億參數的 AI 模型
Cerebras 展示了其第二代晶圓級引擎的功能,宣布它創(chuàng)造了有史以來在單個設備上訓練的最大 AI 模型的記錄。
首次在單臺設備上訓練了具有 200 億個參數的自然語言處理網絡 GPT-NeoX 20B。這就是為什么這很重要。
為什么我們需要訓練這么大的模型?
一種新型的神經網絡,變壓器,正在接管。如今,Transformer 主要用于自然語言處理 (NLP),其注意力機制可以幫助發(fā)現句子中單詞之間的關系,但它們正在擴展到其他 AI 應用程序,包括視覺。變壓器越大,精度越高。語言模型現在通常有數十億個參數,并且它們正在迅速增長,沒有任何放緩的跡象。
使用大型變壓器的一個關鍵領域是在醫(yī)學研究中的應用,例如表觀基因組學,它們被用來模擬基因的“語言”——DNA序列。
為什么這在單個設備上完成很重要?
今天的大型模型大多使用多處理器系統(tǒng)進行訓練,通常是 GPU。Cerebras 表示,它的客戶發(fā)現在數百個處理器上劃分巨大的模型是一個耗時的過程,這對于每個模型和每個特定的多處理器系統(tǒng)都是獨一無二的,基于模型的屬性和每個處理器的特性(即,什么它是一種處理器,它有多少內存)和 I/O 網絡的特性。這項工作不能移植到其他模型或系統(tǒng)。
通常對于多處理器系統(tǒng),有三種類型的并行在起作用:
· 如果模型適合單個處理器,則可以將其復制到其他處理器上,并且每個處理器都使用數據子集進行訓練——這稱為數據并行性,相對簡單。
· 如果模型不適合一個處理器,則模型可以在處理器之間拆分,每個處理器上運行一個或多個層——這稱為流水線模型并行性。但是,這些層需要按順序運行,因此用戶必須手動評估每層需要多少內存和 I/O,以確保沒有瓶頸。它比數據并行更復雜。
· 如果模型的一層太大以至于它無法容納在一個處理器上,它甚至會更加復雜。張量模型并行性必須用于跨處理器拆分層,增加了另一個維度的復雜性,這也會對內存和 I/O 帶寬造成壓力。
大型模型,例如 Cerebras 公告中的 GPT-NeoX 20B,需要所有三種類型的并行性進行訓練。
Cerebras 的 CS-2 避免了模型并行化的需要,部分原因在于其處理器的龐大尺寸——它實際上是一個巨大的850,000 核處理器,位于單個晶圓大小的芯片上,足以容納最大的網絡層——部分原因是 Cerebras從計算中分離出內存??梢蕴砑痈鄡却鎭碇С指鄥?,而無需添加更多計算,從而保持系統(tǒng)計算部分的架構相同。
無需使用并行性,無需花費時間和資源手動劃分模型以在多處理器系統(tǒng)上運行。此外,如果沒有流程的定制部分,模型變得可移植。在具有多個參數的 GPT 模型之間進行更改只需更改一個文件中的四個變量。類似地,在 GPT-J 和 GPT-Neo 之間切換也只需要幾次按鍵。據 Cerebras 稱,這可以節(jié)省數月的工程時間。
對更廣泛的行業(yè)有何影響?
NLP 模型已經變得如此龐大,以至于在實踐中,只有少數公司擁有足夠的資源——無論是計算成本還是工程時間——來訓練它們。
Cerebras 希望通過在云中提供其 CS-2 系統(tǒng),以及幫助客戶減少所需的工程時間和資源,它可以為更多的公司提供大規(guī)模的模型培訓,即使是那些沒有龐大系統(tǒng)工程團隊的公司. 這包括加速科學和醫(yī)學研究以及 NLP。
單個 CS-2 可以訓練具有數千億甚至數萬億參數的模型,因此對于未來的巨大網絡以及今天的網絡來說,都有足夠的空間。
CEREBRAS 有真實世界的例子嗎?
生物制藥公司艾伯維(AbbVie)正在使用 CS-2 進行生物醫(yī)學 NLP 轉換器培訓,這為公司的翻譯服務提供支持,使龐大的生物醫(yī)學文獻庫可跨 180 種語言進行搜索。
“我們在編程和訓練 BERT LARGE模型時遇到的一個常見挑戰(zhàn)是在足夠長的時間內提供足夠的 GPU 集群資源,”生物制藥公司 AbbVie 的人工智能負責人 Brian Martin 在一份聲明中說?!癈S-2 系統(tǒng)將提供可緩解大部分挑戰(zhàn)的掛鐘改進,同時提供更簡單的編程模型,通過使我們的團隊能夠更快地迭代和測試更多想法來加速我們的交付?!?
葛蘭素史克公司使用第一代 Cerebras 系統(tǒng) CS-1 進行表觀基因組學研究。該系統(tǒng)啟用了使用數據集訓練網絡,否則該數據集會非常大。
GSK 人工智能和機器學習高級副總裁 Kim Branson 在一份聲明中說:“葛蘭素史克通過其基因組和基因研究生成了極其龐大的數據集,這些數據集需要新的設備來進行機器學習。” “Cerebras CS-2 是一個關鍵組件,它允許 GSK 使用以前無法達到的規(guī)模和大小的生物數據集訓練語言模型。這些基礎模型構成了我們許多人工智能系統(tǒng)的基礎,并在發(fā)現轉化藥物方面發(fā)揮著至關重要的作用?!?
其他 Cerebras 用戶包括 TotalEnergies,他們使用 CS-2 加速電池、生物燃料、風流、鉆井和 CO 2儲存的模擬;國家能源技術實驗室使用 CS-2 加速基于物理的計算流體動力學;阿貢國家實驗室一直在使用 CS-1 進行 Covid-19 研究和抗癌藥物;還有更多的例子。





