AI 芯片激烈競(jìng)爭(zhēng)賽
人工智能(AI)主要包括三大要素,分別是數(shù)據(jù)、算法和算力。其中數(shù)據(jù)是基礎(chǔ),正是因?yàn)樵趯?shí)際應(yīng)用當(dāng)中的數(shù)據(jù)量越來(lái)越大,使得傳統(tǒng)計(jì)算方式和硬件難以滿(mǎn)足要求,才催生了AI應(yīng)用的落地。而算法是連接軟件、數(shù)據(jù)、應(yīng)用和硬件的重要橋梁,非常關(guān)鍵。算力方面,主要靠硬件實(shí)現(xiàn),也就是各種實(shí)現(xiàn)AI功能的處理器,而隨著應(yīng)用和技術(shù)的發(fā)展,能實(shí)現(xiàn)各種算力、滿(mǎn)足不同應(yīng)用的AI處理器陸續(xù)登場(chǎng),經(jīng)過(guò)不同的發(fā)展階段,發(fā)揮著各自的作用。
在比較成熟的AI平臺(tái)方面,在2012年出現(xiàn)了AlexNet,一直到最近,2018年出現(xiàn)了AlphaGo Zero,在短短的6年內(nèi),算力提高了20多萬(wàn)倍,這完全不同于傳統(tǒng)計(jì)算硬件(如CPU、MCU等)的演進(jìn)軌跡,速度之驚人令我們難以預(yù)測(cè)。
來(lái)自O(shè)penAI的分析顯示,近幾年,AI訓(xùn)練所需的算力每3個(gè)多月就會(huì)翻倍,這比著名的摩爾定律(每18~24個(gè)月,芯片的性能翻倍)演進(jìn)速度快多了。而提升算力的關(guān)鍵是芯片設(shè)計(jì),特別是底層的架構(gòu)設(shè)計(jì),目前來(lái)看,傳統(tǒng)的芯片架構(gòu)已經(jīng)難以滿(mǎn)足AI應(yīng)用的需要。包括IC廠(chǎng)商和互聯(lián)網(wǎng)企業(yè)在內(nèi),越來(lái)越多的廠(chǎng)商開(kāi)始投入研發(fā)或已經(jīng)推出AI專(zhuān)用芯片。根據(jù)Gartner統(tǒng)計(jì),AI芯片在2017年的市場(chǎng)規(guī)模約為46億美元,而到2020年,預(yù)計(jì)將會(huì)達(dá)到148億美元,年均復(fù)合增長(zhǎng)率為47%。而據(jù)麥肯錫預(yù)測(cè),未來(lái)10年,人工智能和深度學(xué)習(xí)將成為提升硅片需求的主要因素,2025年,在AI的推動(dòng)下,全球硅片營(yíng)收將超過(guò)600億美元,接近全球半導(dǎo)體銷(xiāo)售額的20%。
三種AI芯片的對(duì)比
從AI芯片的應(yīng)用場(chǎng)景類(lèi)別來(lái)看,主要分為云端和終端。目前,AI在云端應(yīng)用的更多,相對(duì)成熟,而其在云端應(yīng)用又可分為訓(xùn)練和推理兩種,其中訓(xùn)練的市場(chǎng)規(guī)模占比較高。另外,訓(xùn)練需要的數(shù)據(jù)量和計(jì)算量較大,所用的處理器主要是GPU。至于推理,也以GPU為主,此外,還有FPGA,以及專(zhuān)用的AI芯片(ASIC),其中,ASIC還不是很成熟,量產(chǎn)的產(chǎn)品也不多,因此用量有限,還處于發(fā)展初期,如果能實(shí)現(xiàn)大規(guī)模量產(chǎn),其性能和成本是最優(yōu)的,主要推進(jìn)廠(chǎng)商是Google,其標(biāo)志性產(chǎn)品就是TPU。
綜上,目前,行業(yè)為實(shí)現(xiàn)AI計(jì)算,主要采用的芯片有三種,分別是通用型的GPU,可定制的FPGA,以及專(zhuān)用的ASIC。
在計(jì)算層面,芯片的晶體管數(shù)量和芯片面積決定了算力,面積越大算力越強(qiáng),但功耗也將隨之增加。過(guò)去幾年,在AI處理器的選擇上,可用于通用基礎(chǔ)計(jì)算且運(yùn)算速率更快的GPU迅速成為實(shí)現(xiàn)AI計(jì)算的主流芯片,英偉達(dá)也因此占據(jù)著數(shù)據(jù)中心AI芯片的主要市場(chǎng)份額。
FPGA是典型的半定制化芯片,其功能可以通過(guò)編程來(lái)修改,并行計(jì)算能力很強(qiáng),但是延遲和功耗遠(yuǎn)低于GPU,而與ASIC相比,F(xiàn)PGA的一次性成本要低很多,但其量產(chǎn)成本很高。因此,在實(shí)際應(yīng)用需求還未成規(guī)模,且算法需要不斷迭代、改進(jìn)的情況下,利用FPGA的可重構(gòu)特性來(lái)實(shí)現(xiàn)半定制的AI芯片是最佳選擇。
AI專(zhuān)用芯片ASIC是面向特定應(yīng)用需求而定制的芯片,一旦流片,其功能無(wú)法更改,因此,必須要有量的保證,且應(yīng)用需求穩(wěn)定,不會(huì)發(fā)生大的變化。專(zhuān)用ASIC芯片的性能高于FPGA,如果出貨量可觀,其單顆成本可做到遠(yuǎn)低于FPGA和GPU。
目前來(lái)看,由于GPU具備強(qiáng)大的并行計(jì)算能力和完善的生態(tài)系統(tǒng),現(xiàn)在云端AI應(yīng)用方面處于主導(dǎo)地位。FPGA方面,由于是半定制化的,可以通過(guò)編程來(lái)實(shí)現(xiàn)不同的功能電路,因此,其在通用性和性能之間取得了比較好的平衡,但是較高的開(kāi)發(fā)門(mén)檻和量產(chǎn)成本,對(duì)其應(yīng)用是個(gè)限制。
專(zhuān)用的AI芯片應(yīng)該是未來(lái)的發(fā)展趨勢(shì),無(wú)論是在云端還是在邊緣側(cè),隨著應(yīng)用的逐漸落地,應(yīng)用場(chǎng)景和各種專(zhuān)用功能會(huì)愈加清晰,市場(chǎng)需求也會(huì)越來(lái)越多。另外,與GPU和FPGA相比,ASIC的專(zhuān)利壁壘要小得多,而且其設(shè)計(jì)難度也是最小的。隨著AI應(yīng)用場(chǎng)景的落地,專(zhuān)用的ASIC芯片量產(chǎn)成本低、性能高、功耗低的優(yōu)勢(shì)會(huì)逐漸凸顯出來(lái)。
AI芯片案例
目前,在AI應(yīng)用方面,全球數(shù)據(jù)中心用GPU市場(chǎng)基本被英偉達(dá)壟斷,這里用到的都是高性能GPU,其門(mén)檻很高,又是用于AI,因此,還沒(méi)有什么競(jìng)爭(zhēng)對(duì)手。
除了GPU芯片本身之外,英偉達(dá)還有一個(gè)優(yōu)勢(shì),那就是其在AI計(jì)算方面,有CUDA軟件生態(tài)系統(tǒng)的配合。CUDA編程工具包讓開(kāi)發(fā)者可以對(duì)每一個(gè)像素輕松編程,在這之前,對(duì)程序員來(lái)說(shuō),GPU編程是一件很痛苦的事,CUDA成功將Java、C++等高級(jí)語(yǔ)言開(kāi)放給了GPU編程,從而讓GPU編程變得簡(jiǎn)單了許多,研究者也可以更低的成本快速開(kāi)發(fā)他們的深度學(xué)習(xí)模型。以圖形處理器加速卡Tesla V100 PCIe/SXM2為例,其芯片采用臺(tái)積電的12nm制程工藝,通過(guò)與CUDA軟件和NVLink快速通道的配合,能達(dá)到近125兆次深度學(xué)習(xí)的浮點(diǎn)運(yùn)算訓(xùn)練速度,而以16bit的半精度浮點(diǎn)性能來(lái)看,可達(dá)到31Tera FLOPS。
FPGA方面,Altera被英特爾收購(gòu)之后,賽靈思是目前的霸主,作為傳統(tǒng)的CPU廠(chǎng)商,英特爾近幾年正在AI領(lǐng)域大力布局,收購(gòu)相關(guān)公司自然是一個(gè)重要手段,通過(guò)收購(gòu)全面布局 FPGA和ASIC,除了Altera的FPGA之外,還通過(guò)收購(gòu)Mobileye和視覺(jué)處理器公司Movidius,布局無(wú)人駕駛和計(jì)算機(jī)視覺(jué),這也是將來(lái)AI大有可為的兩個(gè)應(yīng)用領(lǐng)域。
在收購(gòu)Altera之后,英特爾的技術(shù)發(fā)展路線(xiàn)就出現(xiàn)了調(diào)整,例如,其原來(lái)的產(chǎn)品策略是做分立的CPU+FPGA加速器,而兩家公司整合后,由簡(jiǎn)單的分立器件疊加改為了封裝集成,即將CPU和FPGA芯片封裝在一起,這還不算完,英特爾下一步還要將CPU和FPGA集成在同一芯片內(nèi),做成SoC。
賽靈思方面,該公司于2018年底推出了以低成本、低延遲、高能效深度神經(jīng)網(wǎng)絡(luò)(DNN)算法為基礎(chǔ)的Alveo加速卡,基于該公司的UltraScale架構(gòu),采用了臺(tái)積電的16nm制程工藝,目標(biāo)市場(chǎng)就是數(shù)據(jù)中心和云端的AI推理市場(chǎng)。
AI專(zhuān)用ASIC方面,國(guó)內(nèi)外已經(jīng)有多家企業(yè)投入了研發(fā),例如國(guó)內(nèi)的寒武紀(jì)(正在開(kāi)發(fā)NPU)、地平線(xiàn)(BPU系列),還有華為海思和比特大陸,也在專(zhuān)用AI芯片方面投入了不少資源。國(guó)外最為知名的就是谷歌的TPU了,這也是到目前為止,最為成熟的高性能AI專(zhuān)用芯片了。做ASIC需要對(duì)應(yīng)用場(chǎng)景有深刻和精確到位的了解,而這方面卻是傳統(tǒng)芯片設(shè)計(jì)企業(yè)和IDM的短板,因此,目前做AI專(zhuān)用ASIC的,大多是系統(tǒng)產(chǎn)商,互聯(lián)網(wǎng)巨頭,或者以算法起家的公司。
在中國(guó),比特大陸的算豐 (SOPHON) BM1680和BM1682云端安防及大數(shù)據(jù)AI推理系列產(chǎn)品已經(jīng)上市,此外,還有其它幾家沒(méi)有量產(chǎn)的芯片,如華為海思的昇騰Ascend 910系列,據(jù)悉會(huì)采用臺(tái)積電的7nm制程工藝,預(yù)計(jì)會(huì)在今年年底量產(chǎn)。此外,百度的昆侖芯片(采用三星的14nm制程),以及阿里平頭哥的Ali-NPU等,也處在研發(fā)階段,距離量產(chǎn)還有一段時(shí)日。
以上談的主要是用于云端的AI芯片,包括GPU、FPGA和ASIC,這也是目前AI的主要應(yīng)用領(lǐng)域,而在終端和邊緣側(cè),更多的要依靠不斷成熟的ASIC,因?yàn)锳SIC與應(yīng)用場(chǎng)景有著非常緊密的關(guān)系,而這里說(shuō)的應(yīng)用場(chǎng)景,主要是在終端和邊緣側(cè)。
結(jié)語(yǔ)
AI發(fā)展正處于強(qiáng)勁的上升階段,此時(shí),各種AI芯片實(shí)現(xiàn)方案都有其發(fā)揮的空間,可以說(shuō)是處于最佳時(shí)期,這也給眾多廠(chǎng)商占領(lǐng)各自擅長(zhǎng)之應(yīng)用市場(chǎng)提供了更多的機(jī)會(huì)。而隨著應(yīng)用場(chǎng)景的完全落地,以及AI專(zhuān)用芯片的成熟和大規(guī)模量產(chǎn),這一發(fā)展窗口期很可能就將關(guān)閉,因此,眼下各家廠(chǎng)商,無(wú)論是做GPU、FPGA,還是做ASIC的,都在抓緊時(shí)間研發(fā)和拓展市場(chǎng),競(jìng)爭(zhēng)愈發(fā)激烈。





