日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁 > 消費電子 > 消費電子
[導(dǎo)讀]導(dǎo)語基于FPGA的通用CNN加速設(shè)計,可以大大縮短FPGA開發(fā)周期,支持業(yè)務(wù)深度學(xué)習(xí)算法快速迭代;提供與GPU相媲美的計算性能,但擁有相較于GPU數(shù)量級的延時優(yōu)勢,為業(yè)務(wù)構(gòu)建最強

導(dǎo)語

基于FPGA的通用CNN加速設(shè)計,可以大大縮短FPGA開發(fā)周期,支持業(yè)務(wù)深度學(xué)習(xí)算法快速迭代;提供與GPU相媲美的計算性能,但擁有相較于GPU數(shù)量級的延時優(yōu)勢,為業(yè)務(wù)構(gòu)建最強勁的實時AI服務(wù)能力。

WHEN?深度學(xué)習(xí)異構(gòu)計算現(xiàn)狀

隨著互聯(lián)網(wǎng)用戶的快速增長,數(shù)據(jù)體量的急劇膨脹,數(shù)據(jù)中心對計算的需求也在迅猛上漲。同時,人工智能、高性能數(shù)據(jù)分析和金融分析等計算密集型領(lǐng)域的興起,對計算能力的需求已遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)CPU處理器的能力所及。

 

 

異構(gòu)計算被認(rèn)為是現(xiàn)階段解決此計算溝壑的關(guān)鍵技術(shù),目前 “CPU+GPU”以及“CPU+FPGA” 是最受業(yè)界關(guān)注的異構(gòu)計算平臺。它們具有比傳統(tǒng)CPU并行計算更高效率和更低延遲的計算性能優(yōu)勢。面對如此巨大的市場,科技行業(yè)大量企業(yè)投入了大量的資金和人力,異構(gòu)編程的開發(fā)標(biāo)準(zhǔn)也在逐漸成熟,而主流的云服務(wù)商更是在積極布局。

 

 

WHY?通用CNN FPGA加速

業(yè)界可以看到諸如微軟等巨頭公司已經(jīng)部署大批量的FPGA來做AI inference加速,F(xiàn)PGA相較于其他器件的優(yōu)勢是什么呢?

Flexibility:可編程性天然適配正在快速演進的ML算法

DNN、CNN、LSTM、MLP、reinforcement learning以及決策樹等等

任意精度動態(tài)支持

模型壓縮、稀疏網(wǎng)絡(luò)、更快更好的網(wǎng)絡(luò)

Performance:構(gòu)建實時性AI服務(wù)能力

相較于GPU/CPU數(shù)量級提升的低延時預(yù)測能力

相較于GPU/CPU數(shù)量級提升的單瓦特性能能力

Scale

板卡間高速互聯(lián)IO

Intel CPU-FPGA構(gòu)架

與此同時,F(xiàn)PGA的短板也非常的明顯,F(xiàn)PGA使用HDL硬件描述語言來進行開發(fā),開發(fā)周期長,入門門檻高。以單獨的經(jīng)典模型如Alexnet以及Googlenet為例,針對一個模型進行定制的加速開發(fā),往往需要數(shù)月的時間。業(yè)務(wù)方以及FPGA加速團隊需要兼顧算法迭代以及適配FPGA硬件加速,十分痛苦。

一方面需要FPGA提供相較于CPU/GPU有足夠競爭力的低延時高性能服務(wù),一方面需要FPGA的開發(fā)周期跟上深度學(xué)習(xí)算法的迭代周期,基于這兩點我們設(shè)計開發(fā)了一款通用的CNN加速器。兼顧主流模型算子的通用設(shè)計,以編譯器產(chǎn)生指令的方式來驅(qū)動模型加速,可以短時間內(nèi)支持模型切換;同時,對于新興的深度學(xué)習(xí)算法,在此通用基礎(chǔ)版本上進行相關(guān)算子的快速開發(fā)迭代,模型加速開發(fā)時間從之前的數(shù)月降低到現(xiàn)在的一到兩周之內(nèi)。

HOW?通用CNN FPGA架構(gòu)

基于FPGA的通用CNN加速器整體框架如下,通過Caffe/Tensorflow/Mxnet等框架訓(xùn)練出來的CNN模型,通過編譯器的一系列優(yōu)化生成模型對應(yīng)的指令;同時,圖片數(shù)據(jù)和模型權(quán)重數(shù)據(jù)按照優(yōu)化規(guī)則進行預(yù)處理以及壓縮后通過PCIe下發(fā)到FPGA加速器中。FPGA加速器完全按照指令緩沖區(qū)中的指令集驅(qū)動工作,加速器執(zhí)行一遍完整指令緩沖區(qū)中的指令則完成一張圖片深度模型的計算加速工作。每個功能模塊各自相對獨立,只對每一次單獨的模塊計算請求負(fù)責(zé)。加速器與深度學(xué)習(xí)模型相抽離,各個layer的數(shù)據(jù)依賴以及前后執(zhí)行關(guān)系均在指令集中進行控制。

 

 

簡單而言,編譯器的主要工作就是對模型結(jié)構(gòu)進行分析優(yōu)化,然后生成FPGA高效執(zhí)行的指令集。編譯器優(yōu)化的指導(dǎo)思想是:更高的MAC dsp計算效率以及更少的內(nèi)存訪問需求。

接下來我們以Googlenet V1模型為例,對加速器的設(shè)計優(yōu)化思路做簡單的分析。Inception v1的網(wǎng)絡(luò),將1x1、3x3、5x5的conv和3x3的pooling stack在一起,一方面增加了網(wǎng)絡(luò)的width,另一方面增加了網(wǎng)絡(luò)對尺度的適應(yīng)性。下圖為模型中Inception的基本結(jié)構(gòu)。

 

 

數(shù)據(jù)依賴關(guān)系分析

此部分主要分析挖掘模型中可流水化以及可并行化的計算。流水化的設(shè)計可以提高加速器中的計算單元利用率,并行化的計算可以在同一時刻利用盡量多的計算單元。

關(guān)于流水,分析部分包括數(shù)據(jù)從DDR加載到FPGA片上SRAM的操作與PE進行計算的流水,通過此項優(yōu)化將內(nèi)存訪問的時間overlap;DSP計算整列的計算控制過程,保證DSP利用率的提升。

關(guān)于并行,需要重點分析PE計算陣列與激活、pooling以及歸一化等“后處理”模塊之間的并行關(guān)系,如何確定好數(shù)據(jù)依賴關(guān)系以及防止沖突是此處設(shè)計關(guān)鍵。在Inception中,可以從其網(wǎng)絡(luò)結(jié)構(gòu)中看到,branch a/b/c的1x1的卷積計算與branch d中的pooling是可以并行計算的,兩者之間并不存在數(shù)據(jù)依賴關(guān)系。通過此處優(yōu)化,3x3 max pooling layer的計算就可以被完全overlap。

模型優(yōu)化

在設(shè)計中主要考慮兩個方面:尋找模型結(jié)構(gòu)優(yōu)化以及支持動態(tài)精度調(diào)整的定點化。

FPGA是支持大量計算并行的器件,從模型結(jié)構(gòu)上尋找更高維度的并行性,對于計算效率以及減少內(nèi)存訪問都十分有意義。在Inception V1中,我們可以看到branch a branch b branch c的第一層1x1卷積層,其輸入數(shù)據(jù)完全一致,且卷積layer的stride以及pad均一致。那我們是否可以在output feature map維度上對齊進行疊加?疊加后對input data的訪存需求就降低到了原來的1/3。

另一方面,為了充分發(fā)揮FPGA硬件加速的特性,模型的Inference過程需要對模型進行定點化操作。在fpga中,int8的性能可以做到int16的2倍,但是為了使公司內(nèi)以及騰訊云上的客戶可以無感知的部署其訓(xùn)練的浮點模型,而不需要retrain int8模型來控制精度損失,我們采用了支持動態(tài)精度調(diào)整的定點化int16方案。通過此種方法,用戶訓(xùn)練好的模型可以直接通過編譯器進行部署,而幾乎無任何精度損失。

內(nèi)存架構(gòu)設(shè)計

帶寬問題始終是計算機體系結(jié)構(gòu)中制約性能的瓶頸之一,同時內(nèi)存訪問直接影響加速器件功耗效率。

為了最大化的減少模型計算過程中的DDR訪存,我們設(shè)計了如下的內(nèi)存架構(gòu):

Input buff以及output buffer ping-pong設(shè)計,最大化流水以及并行能力

支持Input buff和output buffer自身之間的inner-copy操作

Input buff和output buffer之間的cross-copy操作

通過這種架構(gòu),對于大多數(shù)目前主流模型,加速器可以做到將中間數(shù)據(jù)全部hold在FPGA片上,除了模型權(quán)重的加載外,中間無需消耗任何額外的內(nèi)存操作。對于無法將中間層feature map完全存儲在片上的模型,我們在設(shè)計上,在Channel維度上引入了slice分片的概念,在feature map維度上引入了part分片的概念。通過編譯器將一次卷積或是poolingNorm操作進行合理的拆分,將DDR訪存操作與FPGA加速計算進行流水化操作,在優(yōu)先保證DSP計算效率的前提下盡量減少了DDR的訪存需求。

 

 

計算單元設(shè)計

基于FPGA的通用CNN加速器的核心是其計算單元,本加速器當(dāng)前版本基于Xilinx Ku115芯片設(shè)計,PE計算單元由4096個工作在500MHz的MAC dsp核心構(gòu)成,理論峰值計算能力4Tflops。其基本組織框架如下圖所示。

 

 

KU115芯片由兩個DIE對堆疊而成,加速器平行放置了兩組處理單元PE。每個PE由4組32x16=512的MAC計算DSP核心組成的XBAR構(gòu)成,設(shè)計的關(guān)鍵在于提升設(shè)計中的數(shù)據(jù)復(fù)用降低帶寬,實現(xiàn)模型權(quán)重復(fù)用和各layer feature map的復(fù)用,提升計算效率。

應(yīng)用場景及性能對比

當(dāng)前深度學(xué)習(xí)主流使用GPU做深度學(xué)習(xí)中的Training過程,而線上Inference部署時需綜合考慮實時性、低成本以及低功耗特性選擇加速平臺。按深度學(xué)習(xí)落地場景分類,廣告推薦、語音識別、圖片/視頻內(nèi)容實時監(jiān)測等屬于實時性AI服務(wù)以及智慧交通、智能音箱以及無人駕駛等終端實時低功耗的場景,F(xiàn)PGA相較于GPU能夠為業(yè)務(wù)提供強有力的實時高性能的支撐。

對于使用者而言,平臺性能、開發(fā)周期以及易用性究竟如何呢?

加速性能

以實際googlenet v1模型為例,CPU測試環(huán)境:2個6核CPU(E5-2620v3),64G內(nèi)存。

將整機CPU打滿,單張基于KU115的加速器相較于CPU性能提升16倍,單張圖片檢測延時從250ms降低到4ms,TCO成本降低90%。

同時,F(xiàn)PGA預(yù)測性能略強于Nvidia的GPU P4,但延時上有一個數(shù)量級的優(yōu)化。

 

 

開發(fā)周期

通用的CNN FPGA加速架構(gòu),能夠支持業(yè)務(wù)快速迭代持續(xù)演進中的深度學(xué)習(xí)模型,包括Googlenet/VGG/Resnet/ShuffleNet/MobileNet等經(jīng)典模型以及新的模型變種。

對于經(jīng)典模型以及基于標(biāo)準(zhǔn)layer自研的算法變種,現(xiàn)有加速架構(gòu)已經(jīng)可以支持,可以在一天內(nèi)通過編譯器實現(xiàn)模型對應(yīng)指令集,實現(xiàn)部署上線。

對于自研的特殊模型,例如不對稱卷積算子和不對稱pooling操作等,需要根據(jù)實際模型結(jié)構(gòu)在本平臺上進行相關(guān)算子迭代開發(fā),開發(fā)周期可縮短在一到兩周之內(nèi)進行支持。

易用性

FPGA CNN加速器對底層加速過程進行封裝,向上對加速平臺的業(yè)務(wù)方提供易用SDK。業(yè)務(wù)方調(diào)用簡單的API函數(shù)即可完成加速操作,對業(yè)務(wù)自身邏輯幾乎無任何改動。

結(jié)語

基于FPGA的通用CNN加速設(shè)計,可以大大縮短FPGA開發(fā)周期,支持業(yè)務(wù)深度學(xué)習(xí)算法快速迭代;提供與GPU相媲美的計算性能,但擁有相較于GPU數(shù)量級的延時優(yōu)勢。通用的RNN/DNN平臺正在緊張研發(fā)過程中,F(xiàn)PGA加速器為業(yè)務(wù)構(gòu)建最強勁的實時AI服務(wù)能力。

在云端,2017年初,我們在騰訊云首發(fā)了國內(nèi)第一臺FPGA公有云服務(wù)器,我們將會逐步把基礎(chǔ)AI加速能力推出到公有云上。

AI異構(gòu)加速的戰(zhàn)場很大很精彩,為公司內(nèi)及云上業(yè)務(wù)提供最優(yōu)的解決方案是架平FPGA團隊持續(xù)努力的方向。

如果線上模型需要改動,只需調(diào)用模型初始化函數(shù),將對應(yīng)的模型指令集初始化FPGA即可,加速業(yè)務(wù)可以在幾秒內(nèi)進行切換。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當(dāng)下,工業(yè)電機作為核心動力設(shè)備,其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié),集成化方案的設(shè)計成為提升電機驅(qū)動性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而,在實際應(yīng)用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設(shè)計、生...

關(guān)鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設(shè)中,街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設(shè)計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關(guān)鍵字: LED 驅(qū)動電源 開關(guān)電源

LED驅(qū)動電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動電源
關(guān)閉