最近魯大師公布了2020年第一季度的手機AI芯片排行榜,其中高通驍龍865以112309的得分排名第一,蘋果A13排名第二,得分為59050;華為麒麟990排名第三,得分為58014。
同時,排名前十的AI芯片中,有六款來自高通的驍龍移動平臺,除了驍龍865之外,還有驍龍855/855+、驍龍765G、驍龍845和驍龍670AIE。
以手機為中心的智能硬件產業(yè)在這些年的發(fā)展量變過程中,一個重要的前進方向一定是“越來越智能”,這個智能不僅僅是能幫你在拍照的時候變個臉,或者通話的時候變個聲,亦或是對和語音助手說“明天晚上提醒我看的直播”然后它照做,而是真正能“變成你肚子里的蛔蟲”,隨時都能知道你想要干什么,然后提供相關的服務。
想要實現這個“理想”,不僅需要軟件算法層面的創(chuàng)新,更基礎的,還需要硬件上的支持,這里的硬件,主要就是指AI芯片。
從上面AI芯片的榜單中,我們能夠看到目前主流的移動端芯片制造商都在大力加碼AI芯片的布局,而這其中,來自高通的驍龍移動平臺在AI方面的表現可以說很搶眼,那么這背后又有哪些值得你去了解的知識點呢?
強大AI性能表現背后的獨特架構如果僅用上文魯大師手機AI芯片排行的一紙榜單來介紹驍龍移動平臺在AI方面的表現,或許有些蒼白。這里不妨通過市售驍龍865手機的兩個AI用例來進行說明。
我們知道,高通驍龍移動平臺的AI能力主要由AI Engine人工智能引擎提供支持,到驍龍865就是第五代AI Engine。而在這第五代AI Engine的加持下,驍龍865手機能夠實現過去無法想象的AI功能特性。
例如有一個比較實用的,就是AI的實時翻譯,這在vivo NEX 3S手機上有著重要應用。在這款手機自帶的App中,通過“對話”功能,就可以實現對語言的實時翻譯。
錄制了一段實時翻譯的演示視頻,大家可以看一下:
可以看到,vivo NEX 3S的確可以將一段英語的朗讀內容實時地翻譯成中文,翻譯的結果也能夠讓人滿意,盡管難免有局部不準確的地方,但至少可以讓人看懂這段語音講了什么內容。
我們知道,實時翻譯對于智能手機來說不是一件簡單的任務,它需要模擬人腦的思維方式,實時處理接受到的語音信息,并將之翻譯為文本或語音,對神經網絡運算的運算量、速度都有極為嚴苛的要求,需要極為強大的算力支撐。
另一個用例是游戲的實時插幀。這個用例我們用今年3月推出的努比亞紅魔5G手機來演示。這款手機在第五代AI Engine的加持下,做出了Touch Choreographer游戲插幀技術,支持不少游戲的實時插幀。在測試時,選擇了這款游戲。
實測在進行游戲時,紅魔5G手機運行的平均幀率可以達到141.5fps,幀率波動大約9幀左右,畢竟是插幀效果,幀率波動大一些可以理解,由于本身已經是如此高的幀率,這種波動在游玩過程中是絲毫察覺不到的。
幀率對游戲體驗的重要性不言而喻,而通過高通驍龍移動平臺的AI Engine,可以實現游戲中實時插幀,無疑可以大大提升游戲體驗。
上面這兩個用例存在一些共性,這些共性恰恰能夠體現驍龍移動平臺AI Engine的特性和優(yōu)勢。
首先,這兩個用例都需要CPU、GPU等手機處理器的核心運算部件的參與才能實現,其次,這兩個用例都需要強大的AI算力的支撐,還有就是,這些AI用例的實現都是在終端上進行的。
對于移動終端上的AI應用來說,因為手機自身的計算能力、電量和存儲空間的限制,想要滿足這些需求,對處理器的AI性能就有著很高的要求。而高通驍龍的AI Engine正好以滿足移動終端的AI需求為基礎進行設計的。
此前已經為大家做過很多詳細介紹,驍龍AI Engine人工智能引擎,就是利用異構并行計算的解決方案,調用采用CPU、GPU,以及獨家的面向AI處理的硬件核心Hexagon處理器,合理利用三大硬件核心各自的運算優(yōu)勢和特性,在底層AI框架(Caffe等)以及系統(tǒng)、軟件(SDK等)的調配下,來進行AI運算。這就充分運用了移動設備各個運算核心的性能。
在第五代AI Engine中,高通更是集成了更多運算核心,包括CPU、GPU、Hexagon處理器、ISP、Qualcomm傳感器中樞(Sensing Hub)、安全處理單元、調制解調器,甚至Quick Charge等等,這些核心共同為AI運算提供支持,特別是其中主要運算核心性能的提升,驅動AI Engine整體算力大幅上漲。其中,驍龍865的Adreno? 650 GPU改善了浮點運算和AI性能,TOPS提升了2倍,Hexagon 698處理器通過全新張量加速器將TOPS提升4倍,Kryo? 585 CPU的性能相比上代提升了25%,能效提升25%。
在這些因素的驅動下,驍龍865移動平臺的第五代AI Engine的AI性能相比上一代提升了2倍多,具體到體運算力上,可以達到15 TOPS,也就是每秒15萬億次運算的水平。
除了性能的提升,第五代AI Engine還對每個內核進行大幅優(yōu)化和提升,更重視整體芯片架構面向AI計算的高效率和靈活性。
以Hexagon 698處理器為例,它采用了可執(zhí)行多維度的數據架構,包括零階張量(標量)、一階張量(向量)、二階張量(矩陣),以及更高階張量。
因為在終端側運行的一些神經網絡,有適合在標量處理器上運行的,也有適合整個在向量處理器上進行的,還有的則需要通過張量處理器來處理。高通AI Engine的異構架構,則可以根據不同需求,靈活調度處理核心,對于移動終端而言功耗更低、效率更高。
終端側AI的高效優(yōu)勢5G,將引領我們進入一個新的時代,一個萬物互聯的時代,5G時代就像一張大網,將電視機、汽車、冰箱、洗衣機、空調、音箱、甚至電表水表等等海量設備,無數終端,都網羅在內。這些海量終端彼此通信連接,就需要進行AI運算。那么這時候就不得不考慮一個問題了:這些AI運算是放在云端進行,還是在終端進行?
終端側AI,就是針對這個問題產生的,顧名思義,它的意思就是數據的采集、計算、決策都在前端設備本地進行。
我們的答案是,終端側更符合5G萬物互聯時代的發(fā)展大勢。因為如果是在云端進行AI運算,要考慮到,目前全球已有數十億的聯網終端,未來只會越來越多,海量終端彼此互連并感知周圍環(huán)境。產生的海量數據全部傳給云端進行處理和管理,不容易,也不現實,更影響體驗。
而相較于云端AI,終端側AI擁有更好的隱私性、更高的可靠性和更低的時延,同時高效利用網絡帶寬。
當然,把AI運算放在終端,不等于解決了一切問題。以智能手機為例,AI運算本身需要反復、高強度的運算環(huán)境,智能手機的計算能力、電池、存儲空間等方面都可能是個問題,所以終端側AI首先要解決的問題就是怎樣在消耗資源最少的情況下,實現性能或是結果的最優(yōu)化。
這也是高通在AI Engine中引入Hexagon 張量加速器的原因,因為Hexagon支持的是8位和16位的定點運算,而定點運算有助于模型更快的運行,同時能耗也更低。這對于無法高效進行浮點運算的移動終端和嵌入式應用尤其重要。Hexagon 張量處理器的加入,可以大大提高AI Engine的整體運算效率,降低功耗。
同時,移動端很多AI用例都是并行用例,在處理這些用例的時候,往往有大量數據進入到終端,處理這些海量數據,一定會對手機的性能資源、功耗造成不小壓力。
針對這個問題,高通在AI Engine中開發(fā)了一項全新的專用技術,叫做深度學習帶寬壓縮。這項技術能夠對這些海量數據進行高達50%的壓縮,從而將需要進入到芯片處理的數據壓縮一半,以節(jié)省電能、降低功耗。這是一項完全無損的壓縮技術,也就是說所有數據的精度不會有任何損失。在處理一些對AI性能要求極高的用例時,LPDDR5內存可以釋放更大帶寬,同時傳輸更多數據。
通過這些技術,高通提升了AI Engine不斷提升在終端側進行AI運算的效率,功耗也不斷降低,這為未來移動端更深入、更全面的AI用例夯實了基礎。可以想象,未來將出現的狀態(tài):集中式的云端AI在大數據訓練以及支持時延不敏感的內容和存儲中發(fā)揮著重要作用,而AI的具體執(zhí)行卻會越來越多的在無線邊緣的海量終端上,兩者相輔相成,互為補充。
從這一角度來說,高通AI Engine無疑是終端側AI的重要推動者,驅動未來由各個智能終端構建的智慧化場景。
總結:AI Engine表現出色的關鍵通過上面的介紹,我們可以總結出高通驍龍移動平臺的AI Engine人工智能引擎能夠有出色的AI表現的關鍵,首先是整合CPU、GPU、DSP、ISP、傳感器中樞等各個硬件的異構并行計算的架構在AI運算方面天然契合的優(yōu)勢,換句話說就是系統(tǒng)級硬件設計的優(yōu)勢;其次,是高通AI Engine采用了靈活的架構設計,能夠滿足不同的AI用例的需求;第三,就是在終端側層面提高AI運算能效的努力,對高能效AI運算有著深刻的理解。
由此,AI Engine被打造成運算速度更快,運算精度更高、功耗更低、支持的用例更多的AI運算平臺,對于當前移動終端AI應用體驗的提升,以及未來全場景智慧化服務的構建,都大有裨益。





