日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀]   AI加速的尷尬現(xiàn)狀,不知你是否有感受?   獨(dú)占式方案,非虛擬化使用,成本高昂。缺少異構(gòu)加速管理和調(diào)度,方案難度大,供應(yīng)商還容易被鎖定。   對于AI開發(fā)者而言,虛擬化使用加

  AI加速的尷尬現(xiàn)狀,不知你是否有感受?

  獨(dú)占式方案,非虛擬化使用,成本高昂。缺少異構(gòu)加速管理和調(diào)度,方案難度大,供應(yīng)商還容易被定。

  對于AI開發(fā)者而言,虛擬化使用加速器計(jì)算資源,現(xiàn)有調(diào)度和管理軟件,并不親民。

  所以現(xiàn)在,幾位虛擬化計(jì)算領(lǐng)域的專家,初步打造完成了一套解決方案并正式在GitHub推出,面向開發(fā)者,免費(fèi)下載和使用。

  這就是剛上線的OrionAI計(jì)算平臺。

  

  AI加速器虛擬化

  整個(gè)OrionAI計(jì)算平臺,包括AI加速器虛擬化軟件,和異構(gòu)加速器管理和調(diào)度軟件等兩大組件。

  其中OrionAI加速器虛擬化軟件,不僅支持用戶使用和共享本地加速器資源,而且支持應(yīng)用透明地使用遠(yuǎn)程加速器資源——無需修改代碼。

  從而打破資源調(diào)度的物理邊界,構(gòu)建更高效資源池。

  異構(gòu)加速器管理和調(diào)度軟件,同樣支持用戶的應(yīng)用無需修改代碼,即可透明地運(yùn)行在多種不同加速器之上。

  最終,幫助用戶更好利用多種不同加速器的優(yōu)勢,構(gòu)建更高效的異構(gòu)資源池。

  剛上線的OrionAI計(jì)算平臺社區(qū)版v1.0,支持英偉達(dá)GPU的虛擬化,供AI、互聯(lián)網(wǎng)和公有云頭部客戶試用,開發(fā)者用戶可免費(fèi)下載和使用。

  AI加速痛點(diǎn)

  OrionAI計(jì)算平臺因何出發(fā)?

  方案打造者稱,隨著AI技術(shù)的快速發(fā)展和普及,越來越多客戶開始使用高性能的AI加速器,包括GPU, FPGA和AI ASIC芯片等。

  同時(shí),越來越多的客戶需要高效的AI加速器虛擬化軟件,來提高加速器資源的利用率,以及高效的異構(gòu)加速器管理和調(diào)度軟件,來更好地利用多種不同的加速器,提高性能,降低成本,避免供應(yīng)商鎖定。

  但相應(yīng)地面臨開頭提及的兩大痛點(diǎn)。

  首先,AI加速器價(jià)格偏高。

  以知名的英偉達(dá)V100 GPU為例,價(jià)格在8萬元人民幣左右,高性能FPGA卡,價(jià)位也在5萬元人民幣。

  其次,由于缺乏高效經(jīng)濟(jì)的AI加速器虛擬化解決方案,目前絕大部分企業(yè),不得不獨(dú)占式使用上述昂貴的加速器資源,導(dǎo)致資源利用率低,成本高。

  根據(jù)AWS在re:Invent 2018披露數(shù)據(jù),AWS上GPU利用率只有10%~30%。

  當(dāng)物理機(jī)上只有一塊GPU時(shí),如果沒有GPU虛擬化解決方案,用戶就只能讓一個(gè)虛擬機(jī)獨(dú)占式地使用該GPU,導(dǎo)致該GPU無法被多個(gè)虛擬機(jī)共享。

  于是幾位加速虛擬化領(lǐng)域的老兵,決定試水,并最終推出了自己的方案:OrionAI計(jì)算平臺v1.0。

  方案詳解

  該平臺支持用戶通過多個(gè)虛擬機(jī)或者容器,來共享本地以及遠(yuǎn)程GPU資源。

  使用OrionAI平臺的典型場景有:

  第一,多個(gè)虛擬機(jī)或容器共享本地的GPU。

  用戶只需要將虛擬機(jī)或者容器中的CUDA運(yùn)行環(huán)境(CUDA runtime),替換成Orion運(yùn)行環(huán)境(Orion RunTIme)即可。

  而用戶的AI應(yīng)用和所使用的深度學(xué)習(xí)框架(TensorFlow,、PyTorch等)不需要任何改變,即可像在原生的CUDA運(yùn)行環(huán)境下一樣運(yùn)行。

  同時(shí),用戶需要在物理服務(wù)器上運(yùn)行Orion服務(wù)(Orion Server),該服務(wù)會接管物理GPU,并且將物理GPU虛擬化成多個(gè)Orion vGPU。

  用戶在不同虛擬機(jī)上運(yùn)行的AI應(yīng)用會被分配到不同的Orion vGPU上。這樣物理GPU的利用率就會得到顯著提升。

  第二,多個(gè)虛擬機(jī)或容器共享遠(yuǎn)程的GPU。

  用戶可以將虛擬機(jī)/容器,運(yùn)行在沒有GPU的服務(wù)器上,AI應(yīng)用無需修改,就可以通過Orion RunTIme來使用另外一臺服務(wù)器上的Orion vGPU。

  如此一來,用戶的AI應(yīng)用就可以被部署在數(shù)據(jù)中心中的任何一臺服務(wù)器之上,用戶的資源調(diào)配和管理,得到極大靈活性提升。

  第三,單個(gè)虛擬機(jī)或容器,使用跨越多臺物理服務(wù)器上的GPU。

  

  用戶的虛擬機(jī)/容器通過Orion RunTIme,無需修改AI應(yīng)用和框架,就可以使用跨越多臺物理機(jī)上的GPU資源。

  目前現(xiàn)狀是,AI應(yīng)用可能需要64個(gè)GPU——甚至更多GPU來訓(xùn)練模型,但是今天還沒有一臺物理服務(wù)器能夠完全滿足。

  通過Orion RunTIme,應(yīng)用無需修改就可以直接使用多臺物理服務(wù)器上的GPU,如16臺服務(wù)器,每臺4塊GPU。

  如此一來,用戶GPU資源,就能變成一個(gè)真正的數(shù)據(jù)中心級的資源池。

  用戶的AI應(yīng)用可以透明地使用任何一臺服務(wù)器上的GPU資源,資源利用率和管理調(diào)度靈活度,可以得到極大提升。

  用戶通過Orion AI Platform分配的GPU資源,無論是本地GPU資源,還是遠(yuǎn)程GPU資源,均軟件定義、按需分配。

  這些資源不同于通過硬件虛擬化技術(shù)得到的資源,它們的分配和釋放都能在瞬間完成,不需要重啟虛擬機(jī)或者容器。

  例如,當(dāng)用戶啟動(dòng)了一個(gè)虛擬機(jī)時(shí),如果用戶不需要運(yùn)行AI應(yīng)用,那么Orion AI Platform不會給這個(gè)虛擬機(jī)分配GPU資源。

  當(dāng)用戶需要運(yùn)行一個(gè)大型訓(xùn)練任務(wù),例如需要16個(gè)Orion vGPU,那么Orion AI Platform會瞬間給該虛擬機(jī)分配16個(gè)Orion vGPU。

  當(dāng)用戶完成訓(xùn)練后,又只需要1個(gè)Orion vGPU來做推理,那么Orion AI Platform又能瞬間釋放15個(gè)Orion vGPU。

  值得一提的是,所有上述的資源分配和釋放都不需要虛擬機(jī)重啟。

  技術(shù)細(xì)節(jié)和benchmark

  上述方案背后,究竟是怎樣的技術(shù)細(xì)節(jié)?

  實(shí)際上,Orion Runtime提供了和CUDA Runtime完全兼容的API接口,保證用戶的應(yīng)用無需修改即能運(yùn)行。

  Orion Runtime在得到用戶所有對CUDA Runtime的調(diào)用之后,將這些調(diào)用發(fā)送給Orion Server。

  Orion Server會將這些調(diào)用加載到物理GPU上去運(yùn)行,然后再將結(jié)果返回給Orion Runtime。

  OrionAI計(jì)算平臺v1.0也公布了性能對比結(jié)果。

  先看配置:

  GPU服務(wù)器配置:雙路Intel Xeon Gold 6132,128GB內(nèi)存,單塊nVidia Tesla P40。

  性能測試集:TensorFlow v1.12, 官方benchmark,無代碼修改,測試使用synthetic數(shù)據(jù)。

  “Native GPU”為將性能測試運(yùn)行在物理GPU之上,不使用虛擬機(jī)或者容器;

  “Orion Local Container”為將性能測試運(yùn)行在安裝了Orion Runtime的容器之中,Orion Server運(yùn)行在同一臺物理機(jī)之上;

  “Orion Local KVM”為將性能測試運(yùn)行在安裝了Orion Runtime的KVM虛擬機(jī)之中,Orion Server運(yùn)行在同一臺物理機(jī)之上;

  “Orion Remote – 25G RDMA”為性能測試運(yùn)行在一臺沒有GPU的物理機(jī)之上,Orion Server運(yùn)行在有GPU的物理機(jī)之上,兩臺物理機(jī)通過25G RDMA網(wǎng)卡連接。

  最終對比結(jié)果如下:

  

  通過數(shù)據(jù)可以看出,和跑在物理GPU上相比,Orion Runtime和Orion Server引入的性能損失非常小。

  尤其是在通過網(wǎng)絡(luò)連接來使用遠(yuǎn)程的GPU的情況下,OrionAI計(jì)算平臺通過大量的優(yōu)化,使其性能與使用本機(jī)GPU相比差距非常小。

  OrionAI計(jì)算平臺打造方

  最后,介紹下OrionAI計(jì)算平臺背后的打造方:

  趨動(dòng)科技 VirtAI Tech。

  2019年1月剛創(chuàng)立,主打AI加速器虛擬化軟件,以及異構(gòu)AI加速器管理和調(diào)度軟件。

  主要?jiǎng)?chuàng)始人有三位,皆為該領(lǐng)域的資深老兵。

  王鯤,趨動(dòng)科技CEO。博士畢業(yè)于中國科學(xué)技術(shù)大學(xué)計(jì)算機(jī)系。

  在創(chuàng)辦趨動(dòng)科技之前,王鯤博士供職于Dell EMC中國研究院,任研究院院長,負(fù)責(zé)管理和領(lǐng)導(dǎo)Dell EMC在大中華區(qū)的所有研究團(tuán)隊(duì)。

  他長期從事計(jì)算機(jī)體系結(jié)構(gòu),GPU和FPGA虛擬化,分布式系統(tǒng)等領(lǐng)域的研究工作,在業(yè)界最早開始推動(dòng)FPGA虛擬化相關(guān)研究,在該領(lǐng)域擁有十多年的工作經(jīng)驗(yàn)和積累。

  陳飛,趨動(dòng)科技CTO。博士畢業(yè)于中國科學(xué)院計(jì)算技術(shù)研究所。

  在創(chuàng)立趨動(dòng)科技之前,陳飛博士供職于Dell EMC,擔(dān)任Dell EMC中國研究院首席科學(xué)家,長期從事高性能計(jì)算,計(jì)算機(jī)體系結(jié)構(gòu),GPU和FPGA虛擬化等領(lǐng)域的研究工作。

  鄒懋,趨動(dòng)科技首席架構(gòu)師。博士畢業(yè)于中國科學(xué)技術(shù)大學(xué)。

  在創(chuàng)立趨動(dòng)科技之前,鄒懋博士供職于Dell EMC,擔(dān)任Dell EMC中國研究院高級研究員,長期從事計(jì)算機(jī)體系結(jié)構(gòu),GPU虛擬化等領(lǐng)域的研究工作。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除( 郵箱:macysun@21ic.com )。
換一批
延伸閱讀
關(guān)閉