日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 電源 > 功率器件
[導讀]過去十五年里,我們一直在我們的產(chǎn)品中使用高計算需求的機器學習。機器學習的應用如此頻繁,以至于我們決定設計一款全新類別的定制化機器學習加速器,它就是 TPU。TPU 究竟

過去十五年里,我們一直在我們的產(chǎn)品中使用高計算需求的機器學習。機器學習的應用如此頻繁,以至于我們決定設計一款全新類別的定制化機器學習加速器,它就是 TPU。

TPU 究竟有多快?今天,聯(lián)合在硅谷計算機歷史博物館舉辦的國家工程科學院會議上發(fā)表的有關 TPU 的演講中,我們發(fā)布了一項研究,該研究分享了這些定制化芯片的一些新的細節(jié),自 2015 年以來,我們數(shù)據(jù)中心的機器學習應用中就一直在使用這些芯片。第一代 TPU 面向的是推論功能(使用已訓練過的模型,而不是模型的訓練階段,這其中有些不同的特征),讓我們看看一些發(fā)現(xiàn):

● 我們產(chǎn)品的人工智能負載,主要利用神經(jīng)網(wǎng)絡的推論功能,其 TPU 處理速度比當前 GPU 和 CPU 要快 15 到 30 倍。

● 較之傳統(tǒng)芯片,TPU 也更加節(jié)能,功耗效率(TOPS/Watt)上提升了 30 到 80 倍。

● 驅動這些應用的神經(jīng)網(wǎng)絡只要求少量的代碼,少的驚人:僅 100 到 1500 行。代碼以 TensorFlow 為基礎。

● 70 多個作者對這篇文章有貢獻。這份報告也真是勞師動眾,很多人參與了設計、證實、實施以及布局類似這樣的系統(tǒng)軟硬件。

 

 

TPU 的需求大約真正出現(xiàn)在 6 年之前,那時我們在所有產(chǎn)品之中越來越多的地方已開始使用消耗大量計算資源的深度學習模型;昂貴的計算令人擔憂。假如存在這樣一個場景,其中人們在 1 天中使用谷歌語音進行 3 分鐘搜索,并且我們要在正使用的處理器中為語音識別系統(tǒng)運行深度神經(jīng)網(wǎng)絡,那么我們就不得不翻倍谷歌數(shù)據(jù)中心的數(shù)量。

TPU 將使我們快速做出預測,并使產(chǎn)品迅速對用戶需求做出回應。TPU 運行在每一次的搜索中;TPU 支持作為谷歌圖像搜索(Google Image Search)、谷歌照片(Google Photo)和谷歌云視覺 API(Google Cloud Vision API)等產(chǎn)品的基礎的精確視覺模型;TPU 將加強谷歌翻譯去年推出的突破性神經(jīng)翻譯質(zhì)量的提升;并在谷歌 DeepMind AlphaGo 對李世乭的勝利中發(fā)揮了作用,這是計算機首次在古老的圍棋比賽中戰(zhàn)勝世界冠軍。

我們致力于打造最好的基礎架構,并將其共享給所有人。我們期望在未來的數(shù)周和數(shù)月內(nèi)分享更多的更新。

論文題目:數(shù)據(jù)中心的 TPU 性能分析(In-Datacenter Performance Analysis of a Tensor Processing Unit)

 

 

摘要:許多架構師相信,現(xiàn)在要想在成本-能耗-性能(cost-energy-performance)上獲得提升,就需要使用特定領域的硬件。這篇論文評估了一款自 2015 年以來就被應用于數(shù)據(jù)中心的定制化 ASIC,亦即張量處理器(TPU),這款產(chǎn)品可用來加速神經(jīng)網(wǎng)絡(NN)的推理階段。TPU 的中心是一個 65,536 的 8 位 MAC 矩陣乘法單元,可提供 92 萬億次運算/秒(TOPS)的速度和一個大的(28 MiB)的可用軟件管理的片上內(nèi)存。相對于 CPU 和 GPU 的隨時間變化的優(yōu)化方法(高速緩存、無序執(zhí)行、多線程、多處理、預取……),這種 TPU 的確定性的執(zhí)行模型(deterministic execution model)能更好地匹配我們的神經(jīng)網(wǎng)絡應用的 99% 的響應時間需求,因為 CPU 和 GPU 更多的是幫助對吞吐量(throughout)進行平均,而非確保延遲性能。這些特性的缺失有助于解釋為什么盡管 TPU 有極大的 MAC 和大內(nèi)存,但卻相對小和低功耗。我們將 TPU 和服務器級的英特爾 Haswell CPU 與現(xiàn)在同樣也會在數(shù)據(jù)中心使用的英偉達 K80 GPU 進行了比較。我們的負載是用高級的 TensorFlow 框架編寫的,并是用了生產(chǎn)級的神經(jīng)網(wǎng)絡應用(多層感知器、卷積神經(jīng)網(wǎng)絡和 LSTM),這些應用占到了我們的數(shù)據(jù)中心的神經(jīng)網(wǎng)絡推理計算需求的 95%。盡管其中一些應用的利用率比較低,但是平均而言,TPU 大約 15-30 倍快于當前的 GPU 或者 CPU,速度/功率比(TOPS/Watt)大約高 30-80 倍。此外,如果在 TPU 中使用 GPU 的 GDDR5 內(nèi)存,那么速度(TOPS)還會翻三倍,速度/功率比(TOPS/Watt)能達到 GPU 的 70 倍以及 CPU 的 200 倍。

 

 

表 1:6 種神經(jīng)網(wǎng)絡應用(每種神經(jīng)網(wǎng)絡類型各 2 種)占據(jù)了 TPU 負載的 95%。表中的列依次是各種神經(jīng)網(wǎng)絡、代碼的行數(shù)、神經(jīng)網(wǎng)絡中層的類型和數(shù)量(FC 是全連接層、Conv 是卷積層,Vector 是向量層,Pool 是池化層)以及 TPU 在 2016 年 7 月的應用普及程度。RankBrain [Cla15] 使用了 DNN,谷歌神經(jīng)機器翻譯 [Wu16] 中用到了 LSTM,Inception 用到了 CNN,DeepMind AlphaGo [Sil16][Jou15] 也用到了 CNN。

 

 

圖 1:TPU 各模塊的框圖。主要計算部分是右上方的黃色矩陣乘法單元。其輸入是藍色的「權重 FIFO」和藍色的統(tǒng)一緩存(Unified Buffer(UB));輸出是藍色的累加器(Accumulators(Acc))。黃色的激活(Activation)單元在Acc中執(zhí)行流向UB的非線性函數(shù)。

 

 

圖 2:TPU 芯片布局圖。陰影同圖 1。藍色的數(shù)據(jù)緩存占芯片的 37%。黃色的計算是 30%。綠色的I/O 是 10%。紅色的控制只有 2%。CPU 或 GPU 中的控制部分則要大很多(并且非常難以設計)。

 

 

圖3:TPU印制電路板。可以插入服務器 SATA 盤的卡槽,但是該卡使用了 PCIe Gen3 x16 接口。

 

 

圖4:矩陣乘法單元的 systolic 數(shù)據(jù)流。軟件具有每次讀取 256B 輸入的錯覺,同時它們會立即更新 256 個累加器 RAM 中其中每一個的某個位置。

 

 

表2:谷歌 TPU 與英特爾 Haswell E5-2699 v3、英偉達Tesla K80 的性能對比。E5 有 18 個核,K80 有 13 個 SMX 處理器。圖 10 已經(jīng)測量了功率。低功率 TPU 比高功率 GPU 能夠更好地匹配機架(rack)級密度。每個 TPU 的 8 GiB DRAM 是權重內(nèi)存(Weight Memory)。這里沒有使用 GPU Boost 模式。SECDEC 和非 Boost 模式把 K80 帶寬從 240 降至 160。非 Boost 模式和單裸片 vs 雙裸片性能把 K80 峰值 TOPS 從 8.7 降至 2.8(*TPU 壓模小于等于半個 Haswell 壓模大小)。

 

 

圖5:TPU (die) roofline。 其脊點位于所獲權重內(nèi)存每字節(jié)運行 1350 次的地方,距離右邊還比較遠。

 

 

表格3:TPU 在神經(jīng)網(wǎng)絡工作載荷中性能受到限制的因素,根據(jù)硬件性能計數(shù)器顯示的結果。1,4,5,6行,總共100%,以矩陣單元活動的測量結果為基礎。2,3行進一步分解為64K權重的部分,我們的計數(shù)器無法準確解釋矩陣單元何時會停頓在第6行中;7、8行展示了計數(shù)器結果,可能有兩個原因,包括RAW管道危害,PCIe輸入停止。9行(TOPS)是以產(chǎn)品代碼的測量結果為基礎的,其他列是以性能計數(shù)器的測量結果為基礎的,因此,他們并不是那么完美保持一致。這里并未包括頂部主服務器。MLP以及LSTM內(nèi)存帶寬有限,但是CNN不是。CNN1的測試結果會在文中加以分析。

 

 

圖 9:GPU 服務器(藍條)對比 CPU、TPU 服務器(紅條)對比 CPU、TPU 服務器對比 GPU(橘黃)的相對性能表現(xiàn)/Watt(TDP)。TPU' 是改進版的 TPU(Sec.7)。綠條顯示了對比 CPU 服務器的比例,淡紫色顯示了與 GPU 服務器的關系。整體包括了主服務器的能耗,但不包括增量(incremental)。GM 和 WM 分別是幾何學圖形與加權平均值。

 

 

圖10:CNN0 平臺的單位功耗對比,其中紅色和橙色線是 GPU 加 CPU 系統(tǒng)的功率。藍色是英特爾 E5-2699 v3 Haswell CPU 的功率,綠色是英偉達 Tesla K80 的功率,紫色為谷歌 TPU。每個服務器通常有多個芯片組,以上所有數(shù)字都已被整除成單芯片功率。

 

 

圖11:加權平均 TPU 性能作為度量單元,從 0.25 倍擴展到了 4 倍:內(nèi)存帶寬,時鐘頻率+累加器,時鐘頻率,矩陣單元維度+累加器,以及矩陣單元維度。加權均值使得我們很難看出單個 DNN 的貢獻,但是,MLP 以及 LSTM 提升了 3 倍到 4 倍的內(nèi)存帶寬,但是,更高的時鐘頻率并沒帶來任何效果。對于 CNN 來說,結果反之亦然;4 倍的時鐘率,2 倍的效果。但是,更快的內(nèi)存并沒帶來什么好處。一個更大的矩陣乘法單元并不能對任何 DNN 有幫助。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除( 郵箱:macysun@21ic.com )。
換一批
延伸閱讀

在新能源汽車、工業(yè)設備、無人機等領域,無刷直流電機(BLDC)憑借高效率、高扭矩、長壽命的優(yōu)勢成為核心動力源。但實際應用中,一個普遍現(xiàn)象困擾著用戶:功率越大的無刷電機,反而越難達到高轉速,出現(xiàn) “功率達標但速度滯后” 的...

關鍵字: 無刷直流電機 功率 轉速

USB - PD(USB Power Delivery)是一種基于 USB Type - C 標準構建的先進快速充電技術,其基于充電規(guī)范運行,旨在最大限度地提高傳輸?shù)竭B接設備的功率。該規(guī)范詳細定義了設備如何利用 USB...

關鍵字: USB 功率 連接器

MOS 管在工作過程中會產(chǎn)生一定的熱量,尤其是在大功率應用場景中,熱量的積累如果不能及時散發(fā)出去,會使 MOS 管的結溫不斷升高。當結溫超過其額定結溫時,MOS 管的性能會受到嚴重影響,甚至會導致器件損壞。散熱不良可能是...

關鍵字: MOS 管 功率

本文中,小編將對穩(wěn)壓器予以介紹,如果你想對它的詳細情況有所認識,或者想要增進對它的了解程度,不妨請看以下內(nèi)容哦。

關鍵字: 穩(wěn)壓器 功率

開關模式電源,簡稱SMPS,是一種通過在電抗電路中使用開關功率元件進行大電流整流交流電與高電壓之間轉換的電源技術。與傳統(tǒng)的LDO調(diào)節(jié)器相比,SMPS具有更高的效率和調(diào)節(jié)性能,但同時也面臨著更復雜的PCB布局挑戰(zhàn)。

關鍵字: 開關電源 功率

本文簡述功率在轉換器電路中的轉換傳輸過程,針對開關器件 MOSFET 在導通和關斷瞬間,產(chǎn)生電壓和電流尖峰的問題,進而產(chǎn)生電磁干擾現(xiàn)象。

關鍵字: 功率 轉換器

隨著電子設備性能的不斷提升,散熱問題成為了設計中不可忽視的一環(huán)。散熱不良不僅會導致設備性能下降,還可能縮短設備的使用壽命。以下是十種提高PCB散熱效率的策略。

關鍵字: PCB 功率 電阻

11月24日消息,經(jīng)歷Ampere、Ada兩代GPU規(guī)模精簡之后,RTX 5090再一次“膨脹”——不僅核心面積暴增了22%,功耗也一路飆升到600W。

關鍵字: RTX 5090 功率

高頻開關電源自二十世紀八十年代進入我國以來,憑借其體積小、重量輕、效率高、噪音低等優(yōu)點,迅速在郵電通訊、電力部門及其他多個領域得到廣泛應用。尤其在傳統(tǒng)的工礦企業(yè),如電解電鍍、電化、電火花、電池充電、水處理、熱處理、焊接和...

關鍵字: 高頻開關電源 并聯(lián) 功率

功率電子轉換器開發(fā)人員不斷努力以最高效率實現(xiàn)更高的轉換器功率密度??紤]到減少二氧化碳排放和負責任地使用電能和材料的共同目標,這一點變得更加重要。

關鍵字: 開關頻率 功率 電子轉換器
關閉