Xilinx AI 加速+阿里云 FaaS

時間：2020-03-21 12:52:33

關(guān)鍵字： Xilinx 阿里云

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]阿里云的業(yè)務(wù)之一是為眾多第三方廠商處理海量產(chǎn)品圖像。由于一些圖像內(nèi)含有未付費廣告等多余文本信息，給付費廣告業(yè)務(wù)造成不利影響，因此，為了確保電子商務(wù)網(wǎng)站提供一致的體驗，需要以 AI 推斷對每天數(shù)千萬幅圖像中嵌入的有害文本或多余文本進行檢測，隨之而來的是巨大的 AI 推斷計算工作負載以及高昂的運營成本。

借助 ML 框架在賽靈思 FPGA 上直接加速 Yolo-v2

阿里巴巴過去使用 GPU 運行 Yolo-v2 Tiny(數(shù)據(jù)類型為 Float32)，通過這種方法掌握每日千萬級的圖像內(nèi)容。由于該架構(gòu)未經(jīng)充分優(yōu)化，GPU 只能實現(xiàn)有限的每秒查詢次數(shù) (QPS) 吞吐量，導(dǎo)致用電成本高、服務(wù)器空間占用大。為了降低運營費用，阿里巴巴尋求比 GPU 成本更低的解決方案來檢測有害或多余的文本信息。

依托于賽靈思 16nm Virtex UltraScale+? FPGA 的高度自適應(yīng)架構(gòu)，阿里云 FaaS 團隊在 Int16 上運行 Yolo-v2 Tiny 模型，在媲美 GPU 精度的前提下實現(xiàn)一流的 QPS 性能。單片賽靈思 UltraScale+ FPGA 每秒能處理數(shù)百幅圖片，與最初的 GPU 實現(xiàn)方案相比性能提高 3.5 倍。在 FaaS 的啟發(fā)下，雖然GPU通過完成類似優(yōu)化也可以達到類似性能，但賽靈思解決方案的單幅圖像成本更低。除此之外，賽靈思 Vitis AI 在加快開發(fā)速度方面也有著上佳表現(xiàn)。

VU9P 與 GPU 運行 YOLO V2 Tiny 的對比

賽靈思 Vitis AI 堆棧

在不降低精度的前提下節(jié)省 75% 總擁有成本

Vitis AI 支持開發(fā)者在無需編寫任何 RTL 代碼的情況下，優(yōu)化 DNN 模型并將預(yù)訓練的 DNN 模型部署到賽靈思 FPGA 中。其運行時及外殼程序讓開發(fā)者無需成為 FPGA 專家就能夠充分從賽靈思硬件加速中獲益。

阿里巴巴云和智能FPGA異構(gòu)計算負責人張振祥負責領(lǐng)導(dǎo)該項目并成功在 F3 實例上實施了 AI 加速。

阿里云 FaaS 在云端提供統(tǒng)一的硬件平臺與中間件。在賽靈思 Vitis AI 的支持下，阿里云 FaaS 能夠大幅降低 AI 加速器的開發(fā)成本與部署成本。加速器廠商可以將加速器以服務(wù)形式提供給用戶，克服加速技術(shù)的硬件壁壘。用戶可以按需使用加速服務(wù)，不必理解底層硬件詳情。借助 Vitis AI，阿里巴巴和賽靈思聯(lián)合開發(fā) AI 加速解決方案的最大優(yōu)勢在于，阿里巴巴不需要任何人成為使用 FPGA 技術(shù)的專家。