AI加速 OrionAI計算平臺剛剛上線

時間：2020-06-01 07:30:02

關(guān)鍵字： AI GPU 加速器

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 　　AI加速的尷尬現(xiàn)狀，不知你是否有感受？　　獨占式方案，非虛擬化使用，成本高昂。缺少異構(gòu)加速管理和調(diào)度，方案難度大，供應(yīng)商還容易被鎖定。　　對于AI開發(fā)者而言，虛擬化使用加

　　AI加速的尷尬現(xiàn)狀，不知你是否有感受？

　　獨占式方案，非虛擬化使用，成本高昂。缺少異構(gòu)加速管理和調(diào)度，方案難度大，供應(yīng)商還容易被鎖定。

　　對于AI開發(fā)者而言，虛擬化使用加速器計算資源，現(xiàn)有調(diào)度和管理軟件，并不親民。

　　所以現(xiàn)在，幾位虛擬化計算領(lǐng)域的專家，初步打造完成了一套解決方案并正式在GitHub推出，面向開發(fā)者，免費下載和使用。

　　這就是剛上線的OrionAI計算平臺。

　　AI加速器虛擬化

　　整個OrionAI計算平臺，包括AI加速器虛擬化軟件，和異構(gòu)加速器管理和調(diào)度軟件等兩大組件。

　　其中OrionAI加速器虛擬化軟件，不僅支持用戶使用和共享本地加速器資源，而且支持應(yīng)用透明地使用遠(yuǎn)程加速器資源——無需修改代碼。

　　從而打破資源調(diào)度的物理邊界，構(gòu)建更高效資源池。

　　異構(gòu)加速器管理和調(diào)度軟件，同樣支持用戶的應(yīng)用無需修改代碼，即可透明地運行在多種不同加速器之上。

　　最終，幫助用戶更好利用多種不同加速器的優(yōu)勢，構(gòu)建更高效的異構(gòu)資源池。

　　剛上線的OrionAI計算平臺社區(qū)版v1.0，支持英偉達(dá)GPU的虛擬化，供AI、互聯(lián)網(wǎng)和公有云頭部客戶試用，開發(fā)者用戶可免費下載和使用。

　　AI加速痛點

　　OrionAI計算平臺因何出發(fā)？

　　方案打造者稱，隨著AI技術(shù)的快速發(fā)展和普及，越來越多客戶開始使用高性能的AI加速器，包括GPU， FPGA和AI ASIC芯片等。

　　同時，越來越多的客戶需要高效的AI加速器虛擬化軟件，來提高加速器資源的利用率，以及高效的異構(gòu)加速器管理和調(diào)度軟件，來更好地利用多種不同的加速器，提高性能，降低成本，避免供應(yīng)商鎖定。

　　但相應(yīng)地面臨開頭提及的兩大痛點。

　　首先，AI加速器價格偏高。

　　以知名的英偉達(dá)V100 GPU為例，價格在8萬元人民幣左右，高性能FPGA卡，價位也在5萬元人民幣。

　　其次，由于缺乏高效經(jīng)濟的AI加速器虛擬化解決方案，目前絕大部分企業(yè)，不得不獨占式使用上述昂貴的加速器資源，導(dǎo)致資源利用率低，成本高。

　　根據(jù)AWS在re:Invent 2018披露數(shù)據(jù)，AWS上GPU利用率只有10%～30%。

　　當(dāng)物理機上只有一塊GPU時，如果沒有GPU虛擬化解決方案，用戶就只能讓一個虛擬機獨占式地使用該GPU，導(dǎo)致該GPU無法被多個虛擬機共享。

　　于是幾位加速虛擬化領(lǐng)域的老兵，決定試水，并最終推出了自己的方案：OrionAI計算平臺v1.0。

　　方案詳解

　　該平臺支持用戶通過多個虛擬機或者容器，來共享本地以及遠(yuǎn)程GPU資源。

　　使用OrionAI平臺的典型場景有：

　　第一，多個虛擬機或容器共享本地的GPU。

　　用戶只需要將虛擬機或者容器中的CUDA運行環(huán)境（CUDA runtime），替換成Orion運行環(huán)境（Orion RunTIme）即可。

　　而用戶的AI應(yīng)用和所使用的深度學(xué)習(xí)框架（TensorFlow，、PyTorch等）不需要任何改變，即可像在原生的CUDA運行環(huán)境下一樣運行。

　　同時，用戶需要在物理服務(wù)器上運行Orion服務(wù)（Orion Server），該服務(wù)會接管物理GPU，并且將物理GPU虛擬化成多個Orion vGPU。

　　用戶在不同虛擬機上運行的AI應(yīng)用會被分配到不同的Orion vGPU上。這樣物理GPU的利用率就會得到顯著提升。

　　第二，多個虛擬機或容器共享遠(yuǎn)程的GPU。

　　用戶可以將虛擬機/容器，運行在沒有GPU的服務(wù)器上，AI應(yīng)用無需修改，就可以通過Orion RunTIme來使用另外一臺服務(wù)器上的Orion vGPU。

　　如此一來，用戶的AI應(yīng)用就可以被部署在數(shù)據(jù)中心中的任何一臺服務(wù)器之上，用戶的資源調(diào)配和管理，得到極大靈活性提升。

　　第三，單個虛擬機或容器，使用跨越多臺物理服務(wù)器上的GPU。

　　用戶的虛擬機/容器通過Orion RunTIme，無需修改AI應(yīng)用和框架，就可以使用跨越多臺物理機上的GPU資源。

　　目前現(xiàn)狀是，AI應(yīng)用可能需要64個GPU——甚至更多GPU來訓(xùn)練模型，但是今天還沒有一臺物理服務(wù)器能夠完全滿足。

　　通過Orion RunTIme，應(yīng)用無需修改就可以直接使用多臺物理服務(wù)器上的GPU，如16臺服務(wù)器，每臺4塊GPU。

　　如此一來，用戶GPU資源，就能變成一個真正的數(shù)據(jù)中心級的資源池。

　　用戶的AI應(yīng)用可以透明地使用任何一臺服務(wù)器上的GPU資源，資源利用率和管理調(diào)度靈活度，可以得到極大提升。

　　用戶通過Orion AI Platform分配的GPU資源，無論是本地GPU資源，還是遠(yuǎn)程GPU資源，均軟件定義、按需分配。

　　這些資源不同于通過硬件虛擬化技術(shù)得到的資源，它們的分配和釋放都能在瞬間完成，不需要重啟虛擬機或者容器。

　　例如，當(dāng)用戶啟動了一個虛擬機時，如果用戶不需要運行AI應(yīng)用，那么Orion AI Platform不會給這個虛擬機分配GPU資源。

　　當(dāng)用戶需要運行一個大型訓(xùn)練任務(wù)，例如需要16個Orion vGPU，那么Orion AI Platform會瞬間給該虛擬機分配16個Orion vGPU。

　　當(dāng)用戶完成訓(xùn)練后，又只需要1個Orion vGPU來做推理，那么Orion AI Platform又能瞬間釋放15個Orion vGPU。

　　值得一提的是，所有上述的資源分配和釋放都不需要虛擬機重啟。

　　技術(shù)細(xì)節(jié)和benchmark

　　上述方案背后，究竟是怎樣的技術(shù)細(xì)節(jié)？

　　實際上，Orion Runtime提供了和CUDA Runtime完全兼容的API接口，保證用戶的應(yīng)用無需修改即能運行。

　　Orion Runtime在得到用戶所有對CUDA Runtime的調(diào)用之后，將這些調(diào)用發(fā)送給Orion Server。

　　Orion Server會將這些調(diào)用加載到物理GPU上去運行，然后再將結(jié)果返回給Orion Runtime。

　　OrionAI計算平臺v1.0也公布了性能對比結(jié)果。

　　先看配置：

　　GPU服務(wù)器配置：雙路Intel Xeon Gold 6132，128GB內(nèi)存，單塊nVidia Tesla P40。

　　性能測試集：TensorFlow v1.12，官方benchmark，無代碼修改，測試使用synthetic數(shù)據(jù)。

　　“Native GPU”為將性能測試運行在物理GPU之上，不使用虛擬機或者容器；

　　“Orion Local Container”為將性能測試運行在安裝了Orion Runtime的容器之中，Orion Server運行在同一臺物理機之上；

　　“Orion Local KVM”為將性能測試運行在安裝了Orion Runtime的KVM虛擬機之中，Orion Server運行在同一臺物理機之上；

　　“Orion Remote – 25G RDMA”為性能測試運行在一臺沒有GPU的物理機之上，Orion Server運行在有GPU的物理機之上，兩臺物理機通過25G RDMA網(wǎng)卡連接。

　　最終對比結(jié)果如下：

　　通過數(shù)據(jù)可以看出，和跑在物理GPU上相比，Orion Runtime和Orion Server引入的性能損失非常小。

　　尤其是在通過網(wǎng)絡(luò)連接來使用遠(yuǎn)程的GPU的情況下，OrionAI計算平臺通過大量的優(yōu)化，使其性能與使用本機GPU相比差距非常小。

　　OrionAI計算平臺打造方

　　最后，介紹下OrionAI計算平臺背后的打造方：

　　趨動科技 VirtAI Tech。

　　2019年1月剛創(chuàng)立，主打AI加速器虛擬化軟件，以及異構(gòu)AI加速器管理和調(diào)度軟件。

　　主要創(chuàng)始人有三位，皆為該領(lǐng)域的資深老兵。

　　王鯤，趨動科技CEO。博士畢業(yè)于中國科學(xué)技術(shù)大學(xué)計算機系。

　　在創(chuàng)辦趨動科技之前，王鯤博士供職于Dell EMC中國研究院，任研究院院長，負(fù)責(zé)管理和領(lǐng)導(dǎo)Dell EMC在大中華區(qū)的所有研究團隊。

　　他長期從事計算機體系結(jié)構(gòu)，GPU和FPGA虛擬化，分布式系統(tǒng)等領(lǐng)域的研究工作，在業(yè)界最早開始推動FPGA虛擬化相關(guān)研究，在該領(lǐng)域擁有十多年的工作經(jīng)驗和積累。

　　陳飛，趨動科技CTO。博士畢業(yè)于中國科學(xué)院計算技術(shù)研究所。

　　在創(chuàng)立趨動科技之前，陳飛博士供職于Dell EMC，擔(dān)任Dell EMC中國研究院首席科學(xué)家，長期從事高性能計算，計算機體系結(jié)構(gòu)，GPU和FPGA虛擬化等領(lǐng)域的研究工作。

　　鄒懋，趨動科技首席架構(gòu)師。博士畢業(yè)于中國科學(xué)技術(shù)大學(xué)。

　　在創(chuàng)立趨動科技之前，鄒懋博士供職于Dell EMC，擔(dān)任Dell EMC中國研究院高級研究員，長期從事計算機體系結(jié)構(gòu)，GPU虛擬化等領(lǐng)域的研究工作。

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

與傳統(tǒng)的驅(qū)動方式相比，共陰恒流驅(qū)動在能效有哪些優(yōu)勢

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動電源

[電源]

工業(yè)電機驅(qū)動電源設(shè)計：反電動勢抑制與過流保護(hù)的集成方案

在工業(yè)自動化蓬勃發(fā)展的當(dāng)下，工業(yè)電機作為核心動力設(shè)備，其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動勢抑制與過流保護(hù)是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié)，集成化方案的設(shè)計成為提升電機驅(qū)動性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機驅(qū)動電源

[電源]

如何解決 LED 驅(qū)動電源的易損壞問題

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而，在實際應(yīng)用中，LED 驅(qū)動電源易損壞的問題卻十分常見，不僅增加了維護(hù)成本，還影響了用戶體驗。要解決這一問題，需從設(shè)計、生...

關(guān)鍵字：驅(qū)動電源照明系統(tǒng) 散熱

[電力電工電路]

LED設(shè)計中LED驅(qū)動電源的公式

根據(jù)LED驅(qū)動電源的公式，電感內(nèi)電流波動大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設(shè)計驅(qū)動電源

[汽車電子]

EV主驅(qū)IGBT隔離驅(qū)動電源方案選擇問題探討

電動汽車(EV)作為新能源汽車的重要代表，正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機驅(qū)動控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字：電動汽車新能源驅(qū)動電源

[電源]

合理的驅(qū)動電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設(shè)中，街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步，高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動電源 LED

[消費電子]