日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 嵌入式 > 嵌入式動態(tài)
[導(dǎo)讀]最近人工智能芯片很火,華為發(fā)布了兩款A(yù)I芯片—升騰910和310,阿里成立的芯片公司“平頭哥”,首款A(yù)I芯片最快明年下半年面世,人工智能依然是風(fēng)口。行業(yè)的另一個熱點是RISC-V,65家機構(gòu)發(fā)起成立了中國RISC-V產(chǎn)業(yè)聯(lián)盟。那么,RISC-V的開源架構(gòu)可以給人工智能芯片帶來什么機遇呢?

最近人工智能芯片很火,華為發(fā)布了兩款A(yù)I芯片—升騰910和310,阿里成立的芯片公司“平頭哥”,首款A(yù)I芯片最快明年下半年面世,人工智能依然是風(fēng)口。行業(yè)的另一個熱點是RISC-V,65家機構(gòu)發(fā)起成立了中國RISC-V產(chǎn)業(yè)聯(lián)盟。那么,RISC-V的開源架構(gòu)可以給人工智能芯片帶來什么機遇呢?

RISC-V的首席構(gòu)架師Krste Asanovic告訴我們:“Mi-V生態(tài)系統(tǒng)和PolarFire可為功率受限的嵌入式系統(tǒng)提供深度學(xué)習(xí)解決方案。”

Mi-V RISC-V生態(tài)系統(tǒng)開發(fā)平臺是美高森美(Microsemi)加速生態(tài)系統(tǒng)計劃的一部分,聚集了許多參與RISC-V開發(fā)的行業(yè)領(lǐng)導(dǎo)者,為客戶充分利用其功能并簡化RISC-V設(shè)計。Mi-V生態(tài)系統(tǒng)為固件和硬件工程師提供了全面的生態(tài)系統(tǒng),讓第三方能夠使用這個平臺推動RISC-V采用和創(chuàng)新。

在最近SiFive舉辦的RISC-V中國巡回研討會上,Krste Asanovic博士向我們講述了人工智能的進化史以及RISC-V給人工智能芯片所帶來的機遇。

一、人工智能的三波浪潮

人工智能(Artificial Intelligence)始于人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)經(jīng)歷了三波浪潮:第一波是上世紀五十年代和六十年代,人類發(fā)明了感知器(模擬人類視神經(jīng)控制系統(tǒng)的圖形識別機);第二波是上世紀八十年代和九十年代,稱為“反向傳播”的浪潮;第三波浪潮是自2010年以來的深度神經(jīng)網(wǎng)絡(luò)。值得注意的是,所有開發(fā)出來的理念比實際最終流行都要早很多年。

在上世紀五十年代和六十年代,人們發(fā)明了單層感知器。這個感知器最早是為圖像處理開發(fā)的單層感知器(例如Rosenblatt),它只是一個“線性可分分類器”,不能捕獲有趣函數(shù),例如XOR函數(shù)。到了七十和八十年代,AI逐漸從統(tǒng)計方法轉(zhuǎn)移到符號方法。

到了1986年,有影響力的PDP書籍出版,從單層感知器發(fā)展到了多層感知器與反向支撐。人們發(fā)現(xiàn)兩層方向支撐訓(xùn)練網(wǎng)絡(luò)在實現(xiàn)許多艱巨任務(wù)時明顯好很多,但專家們一個廣泛的抱怨是結(jié)果不可解釋,而且用通用計算機訓(xùn)練的過程太慢了,所以要趕快建立定制機器。

這樣就有了定制神經(jīng)計算機。大的定制神經(jīng)網(wǎng)絡(luò)計算機的努力主要發(fā)生在九十年代。在上世紀九十年代逐漸有了DSP 陣列、矢量處理器、脈動陣列(Systolic arrays),以及其他更多的仿神經(jīng)方法,例如:具有EEPROM權(quán)重的模擬、位系列技術(shù)、尖峰方法、異步處理器等等。

這里特別要提出的是1989年發(fā)明的環(huán)形陣列處理器(ICSI 1989),發(fā)明人是Nelson Morgan, Jim Beck, Phil Kohn, Jeff Bilmes。這是為快速訓(xùn)練建立的號稱為“大轉(zhuǎn)儲”神經(jīng)網(wǎng)絡(luò)的RAP機,開辟了語音識別領(lǐng)域;九十年代美國德州儀器公司的環(huán)形浮點DSPs TMS320C30問世,每個DSP提供32MFLOPS(32-bit FP),每個板子上有4個DSP,10個電路板連接在一起(大于1GFLOP/s峰值,640MB DRAM)。其神經(jīng)網(wǎng)格訓(xùn)練率大于100MCUPS(每秒百萬級的鏈接升級),全部加起來有10個電路板。FPGA環(huán)連接用來為所有脈動陣列-即在訓(xùn)練和推理時的所有通訊,其快速、靈活的設(shè)計使其成為當時人工智能領(lǐng)域的一個“明星”,但是價格昂貴,每個電路板達10萬美金。

二、專用和通用計算機之爭

矢量微處理器(例如:Crays)在科學(xué)計算領(lǐng)域非常成功,它是一種全新的編程模型。給一個標準的MIPS RISC 標量處理器增加一個矢量協(xié)處理器,并全部集成在一個芯片,可用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練。

第一臺矢量微處理器是SPERT-II/T0,它產(chǎn)生于1995年。其系統(tǒng)被9個國際網(wǎng)站采用,作為人工智能的研發(fā)平臺整整工作了9年,2004年它在最后一次“上班”后黯然下崗。

1997年出現(xiàn)了TetraSpert,它是一臺可快速訓(xùn)練的矢量微處理器,使用SPARC工作站,通過Sbus總線連接若干臺(4臺)SRAM T0,進行神經(jīng)網(wǎng)絡(luò)的快速訓(xùn)練。西門子在1992年5月推出了SYNAPSE-1,這是一臺“脈動陣列-多重引擎(16b*16b)”的處理器,可實現(xiàn)四級程序控制(68000s+微碼)。

這個時代的人工智能處理器是“用簡化的矢量處理填充掩模版,添加高寬帶本地存儲器,并向服務(wù)器附加多個以加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練。”

九十年代的人工智能市場特點一個是很小,一個是神經(jīng)網(wǎng)絡(luò)開始“人氣消退”,只有一小部分人還在堅持做這個,因為摩爾定律的微縮理論更看好通用型處理器。

1996年,Intel發(fā)布了奔騰MMX(Pentium MMX),從多能奔騰開始,英特爾就對其生產(chǎn)的CPU開始鎖倍頻了,但是MMX的CPU超外頻能力特別強,而且還可以通過提高核心電壓來超倍頻,所以那個時候超頻是一個很時髦的行動。

MIT計算機科學(xué)實驗室的Krste Asanovic 發(fā)表了一篇論文“可編程神經(jīng)計算方法”,文章說: “盡管迄今為止實現(xiàn)的多媒體擴展證實了基于定點矩陣碼的通用微處理器有一個有限的提升,他們預(yù)示著商業(yè)微處理器制造商的意圖是這種編碼工作的很好,由于商業(yè)設(shè)計團隊在新的微處理器設(shè)計中加入了多媒體內(nèi)核的工作量,我們期待ANN算法的功能也能夠大大增加,連續(xù)大量的投資都瞄準了高容量微處理器,以確保這些器件能使用最先進的制造工藝和更激進能夠產(chǎn)生更高快速時鐘速率的電路設(shè)計風(fēng)格。在這種趨勢下,勢必減少了對于未來專用的神經(jīng)計算機的興趣。”

另外,隨著年代,微處理器的功能提高速率在減慢:

•1980~1985: 提升22%/年;

•1985~2003: 提升52%/年;

•2003~2011: 23%/年;

•2011~2015: 9.3%/年;

•2015年以后:2.3%/年。

“現(xiàn)在的微處理器功能已經(jīng)相當于將近10萬個VAX-11/780工作站,進步驚人,但提升速率在下降,” Krste Asanovic博士說。“九十年代開始神經(jīng)計算機已不能和微縮的通用計算機進行競爭了,但現(xiàn)在通用微處理器的工藝微縮停止了。”

三、圖像處理器(GPU)

GPU和CPU之所以大不相同,是由于其設(shè)計目標的不同,它們分別針對了兩種不同的應(yīng)用場景。CPU需要很強的通用性來處理各種不同的數(shù)據(jù)類型,同時又要邏輯判斷又會引入大量的分支跳轉(zhuǎn)和中斷的處理。這些都使得CPU的內(nèi)部結(jié)構(gòu)異常復(fù)雜。而GPU面對的則是類型高度統(tǒng)一的、相互無依賴的大規(guī)模數(shù)據(jù)和不需要被打斷的純凈的計算環(huán)境。

圖像處理器是在90年代中后期出現(xiàn)的,GPU的主要功能是產(chǎn)生3D圖像,包括高端的浮點單元,提供工作站—像PC的圖形,配置圖形管道等,但在初期它并不能真正的進行編程。

進入21世紀以后,特別是2001年到2005年之間,隨著時間的推移圖像處理器加入了更多的可編程性能。例如,用來寫小程序的新語言Cg在每個格點或每個像素進行,也在Windows DirectX變體上進行。出現(xiàn)了大量并行的(每框約上百萬的格點或像素)但是非常嚴格的編程模型,某些用戶注意到它也可以做通用計算,將輸入輸出數(shù)據(jù)映射到圖像,計算格點和像素陰影。這些難以置信的編程模型,必須使用圖像管道模型進行通用計算。

通用圖像處理器(GP-GPU)的里程碑是2006年英偉達發(fā)布的GeForce 8800GPU,它可以支持一個新的可編程語言:CUDA,這是一個“統(tǒng)一計算設(shè)備架構(gòu)”。接著,行業(yè)更廣泛地推動了一個有同樣想法的中立供應(yīng)商版本OpenCL,其想法是,利用GPU的計算性能和存儲器帶寬來加速某些內(nèi)核通用計算性能。這樣就產(chǎn)生了附加處理器模型:主機CPU將數(shù)據(jù)并行內(nèi)核發(fā)布到GPU執(zhí)行,時間久了,就演變成為了速度最快的執(zhí)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練的標準方式。

此時GPU已經(jīng)不再局限于3D圖形處理了,GPU通用計算技術(shù)發(fā)展引起業(yè)界的關(guān)注,事實也證明在浮點運算、并行計算等部分計算方面,GPU可以提供數(shù)十倍乃至于上百倍于CPU的性能。

GPU采用了數(shù)量眾多的計算單元和超長的流水線,但只有非常簡單的控制邏輯并省去了Cache。而CPU不僅被Cache占據(jù)了大量空間,而且還有有復(fù)雜的控制邏輯和諸多優(yōu)化電路,相比之下計算能力只是CPU很小的一部分。

所以與CPU擅長邏輯控制和通用類型數(shù)據(jù)運算不同,GPU擅長的是大規(guī)模并發(fā)計算(Concurrent computing),這也正是人工智能等所需要的。所以GPU除了圖像處理,也越來越多的參與到計算當中來。

四、定制AI芯片的廣泛努力

在圖像處理器GPU逐漸演變?yōu)橥ㄓ糜嬎闾幚砥鞯臅r候,許多定制芯片廠商也在努力開發(fā)定制AI芯片。例如Google推出的TPU(張量處理器)、TPUv2、TPUv3等云計算系列芯片,也有人稱之為AI協(xié)同處理器。TPU的性能比現(xiàn)代CPU和GPU高15-30倍,每瓦性能提高30-80倍。

AI 加速器設(shè)計的原型是邊緣推理(Inference at edge),它最關(guān)切的因素是成本、性能和功耗,需要高壓縮的模塊來減少系統(tǒng)成本和功耗,以及成本性能績效。

云端推理最關(guān)切的是(交互)延遲、吞吐量和成本,響應(yīng)用戶要求的快速性和可預(yù)見力,因為有許許多多的用戶,因此降低每個用戶的成本是關(guān)鍵。

云端訓(xùn)練關(guān)切的是性能。價值是得出的數(shù)據(jù)模型,要為高的成本/功耗辯解。單次訓(xùn)練可達數(shù)周,優(yōu)化技能人才開發(fā)稀缺資源。這個更像傳統(tǒng)的HPC,而不像傳統(tǒng)的云,追求極限的工藝,最先進的工藝節(jié)點,互連、冷卻技術(shù)等等。

總的來說,云AI加速器的共性包括,專用矩陣引擎、壓縮的定點/浮點格式、多片片上暫存存儲器、先進節(jié)點中的全掩模板、最高帶寬的外部DRAM、最高帶寬的串行鏈路等。

假設(shè)以上條件全部成立,AI能夠成功嗎?Krste Asanovic博士給出了三點預(yù)測:第一、算法變化很快但模式經(jīng)久;第二、摩爾定律死了但阿姆達爾定律(Amdahl’s Law)還活著;第三、軟件最重要,但你永遠無法完成它。阿姆達爾定律表明,即使到了多核時代,并發(fā)程序的開發(fā)或者說提升程序的并發(fā)度仍然具有十分重要的意義。

阿姆達爾定律是一個計算機科學(xué)界的經(jīng)驗法則,可用于指導(dǎo)CPU的可擴展設(shè)計。阿姆達爾定律指出,CPU的發(fā)展有兩個方向,更快的CPU或者更多的核。目前看來發(fā)展的重心偏向了CPU的核數(shù)。但有時我們會發(fā)現(xiàn)雖然擁有更多的核,當我們同時運行幾個程序時,只有少數(shù)幾個線程處于工作中,其它的并未做什么工作,實踐當中,并行運行多個線程往往并不能顯著提升性能,程序往往并不能有效的利用多核,在多核處理器中加速比是衡量并行程序性能的一個重要參數(shù)。

AI的算法在流片和布局中一直在改變,按照伯克利的觀點:“Dwarfs侏儒”是任何計算問題的最基本因素。Krste Asanovic博士說,“我不知道AI算法的未來是什么樣子,但是他們將使用這些模式,設(shè)計永遠是這些模式的靈活組合。”

摩爾定律死了,阿姆達爾定律活著,而且是活蹦亂跳地活著。

五、應(yīng)用于AI加速器的RISC-V

軟件被定義為通過優(yōu)化算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)構(gòu)架以解決特定的任務(wù)。今天,神經(jīng)網(wǎng)絡(luò)是用來學(xué)習(xí)解決問題的實際工具,其中涉及通過大數(shù)據(jù)集進行分類學(xué)習(xí)。

做研發(fā)的人有深切的體會,“在流片前永遠結(jié)束不了軟件工作,在流片前不太可能完成1%的軟件工作,傾向于只編碼了內(nèi)核(1%)還剩99%,但你要記著阿姆達爾定律!”Krste Asanovic博士強調(diào),“如果系統(tǒng)很難編程,那么就不會有軟件了;如果你沒有軟件,你就不會有一個加速器!”

RISC-V是免費且開放的ISA,通過開放標準協(xié)作推動實現(xiàn)處理器創(chuàng)新的全新時代。RISC-V也可成為定制加速器的設(shè)計基礎(chǔ)。

應(yīng)用一個簡單的基礎(chǔ)ISA對所有核可以大大簡化軟件。例如,在你需要一個高性能Unix兼容核去運行操作系統(tǒng)時,建立一個超標量體系結(jié)構(gòu)OoO核;在你微代碼調(diào)度需要VLIW的時候,按順序構(gòu)建超標體系結(jié)構(gòu);在你需要低精度SIMD的地方,使用標準矢量擴展;在你想需要利用2D優(yōu)化的地方(例如:多路脈動陣列、卷積),使用2D擴展(正在進行中);在你需要中斷/響應(yīng)I/O管理核的地方,建立嵌入式核;以及相同的存儲器模塊,同步基元,編程工具流程(C-結(jié)構(gòu)包),查錯,跟蹤……等等。

RISC-V可定制化核有許多豐富的選擇,包括被連接到相干高寬帶結(jié)構(gòu)的核和即將到來的矢量擴展、客戶自定義指令擴展、依附在相干構(gòu)造上的AI加速器等。

一個好消息是開源的Nvidia NVDLA 在其SiFive流行芯片上已經(jīng)得到演示,SiFive Design Sharer提供了簡潔全面的ASIC設(shè)計服務(wù),以及提供應(yīng)用于高寬帶存儲系統(tǒng)的HBM2 IP 和應(yīng)用于柔性芯片連接的Interlaken IP等眾多人工智能RISC-V IP核。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設(shè)備,其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié),集成化方案的設(shè)計成為提升電機驅(qū)動性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而,在實際應(yīng)用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設(shè)計、生...

關(guān)鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設(shè)中,街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設(shè)計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關(guān)鍵字: LED 驅(qū)動電源 開關(guān)電源

LED驅(qū)動電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動電源
關(guān)閉