[導(dǎo)讀]在《近距離看GPU計算》系列第一篇里我們介紹了GPU的一些基礎(chǔ)知識及其如何從圖形加速設(shè)備演化到通用計算平臺。本文我們會具體從處理單元設(shè)計和存儲層次結(jié)構(gòu)兩個方面探討GPU不同于CPU的特點(diǎn),再次確認(rèn)我們反復(fù)申明的GPU更重視整體的Throughput而CPU更在乎具體任務(wù)的Late...
在《近距離看GPU計算》系列第一篇里我們介紹了GPU的一些基礎(chǔ)知識及其如何從圖形加速設(shè)備演化到通用計算平臺。本文我們會具體從處理單元設(shè)計和存儲層次結(jié)構(gòu)兩個方面探討GPU不同于CPU的特點(diǎn),再次確認(rèn)我們反復(fù)申明的GPU更重視整體的Throughput而CPU更在乎具體任務(wù)的Latency。CPU和GPU從一開始就是為不同的目標(biāo)而設(shè)計,CPU雖然也可以同時執(zhí)行多個線程,但其旨在高效地處理串行指令,通過許多復(fù)雜技術(shù)優(yōu)化提高指令級并行以便可以盡快執(zhí)行串行程序。而GPU卻是生而為同時執(zhí)行成千上萬個線程,犧牲單個線程性能換取整體性能最大化。下圖對CPU與GPU的抽象架構(gòu)進(jìn)行了比對,其中Control是控制器、Core是處理單元、Cache指的是各級緩存、DRAM就是內(nèi)存。我們可以看到GPU設(shè)計者將更多的晶體管用作執(zhí)行單元,而不是像CPU那樣用作復(fù)雜的控制邏輯和緩存。在下面章節(jié)里,我們會具體討論這兩種設(shè)計面向帶來的影響,在本文討論里筆者盡量不拘泥具體產(chǎn)商的特定GPU產(chǎn)品,而是希望能給出一般的指引,但是因為文本材料的優(yōu)勢以及在通用計算領(lǐng)域明顯的優(yōu)勢地位,我們大概還是不能脫離Nvidia GPU的語境, AMD GPU的處理單元設(shè)計細(xì)節(jié)與Nvidia有較大不同,以后我們可以專文討論。一,SIMT和硬件多線程根據(jù)計算機(jī)歷史上有名的的費(fèi)林分類法(Flynn's Taxonomy),如下圖所示計算機(jī)體系架構(gòu)可以簡單分為四類,分別是:- 單一指令流單一數(shù)據(jù)流計算機(jī)(SISD, Single Instruction Single Data)
- 單一指令流多數(shù)據(jù)流計算機(jī)(SIMD, Single Instruction Multiple Data)
- 多指令流單一數(shù)據(jù)流計算機(jī)(MISD, Multiple Instruction Single?Data)
- 多指令流多數(shù)據(jù)流計算機(jī)(MIMD, Multiple Instruction Multiple?Data)
單核CPU可以歸類為SISD,多核CPU屬于MIMD。我們重點(diǎn)關(guān)注的SIMD指的是采用一個控制器來控制多個處理單元,同時對一組數(shù)據(jù)的元素分別執(zhí)行相同的操作從而實現(xiàn)空間上并行的技術(shù)。傳統(tǒng)CPU的指令擴(kuò)展SSE和NEON都屬于典型的SIMD。現(xiàn)代GPU在SIMD基礎(chǔ)上發(fā)展出SIMT(Single Instruction Multiple Thread)的執(zhí)行架構(gòu)。傳統(tǒng)SIMD是一個線程調(diào)用向量處理單元(Vector ALU)執(zhí)行向量指令來操作向量寄存器完成運(yùn)算,而SIMT往往由一組標(biāo)量處理單元(Scalar ALU)構(gòu)成,每個處理單元對應(yīng)一個硬件線程,所有處理單元共享指令預(yù)取/譯碼模塊并接收同一指令共同完成SIMD類型運(yùn)算,運(yùn)行其上的線程可以有自己的寄存器堆,獨(dú)立的內(nèi)存訪問尋址以及執(zhí)行分支。我們以Nvida CUDA為例來介紹SIMT是如何運(yùn)作的。下圖是有關(guān)分發(fā)CUDA的計算任務(wù)到GPU硬件上執(zhí)行,展示了軟硬件視角各個層級的對應(yīng)關(guān)系。我們先介紹層級圖右面的GPU硬件層次,CUDA的GPU有很多SM(Streaming Multiprocesso)組成。一個SM又有很多SP(Streaming Processor)構(gòu)成,SP是每個線程具體執(zhí)行指令所在,SP也采用流水線設(shè)計以提高指令級并行,但它一般都是順序執(zhí)行,很少使用分支預(yù)測、動態(tài)執(zhí)行等復(fù)雜技術(shù)。在GPU通用計算語境下GPU設(shè)備上執(zhí)行的程序被稱為Kernel,針對某個Kernel分發(fā)的所有線程都執(zhí)行相同的程序,這些線程被組織成一系列層次結(jié)構(gòu),也就是Grid和Block,如層級圖左邊所示。Grid規(guī)定各個維度Block的數(shù)量,Block規(guī)定各個維度線程的數(shù)量,它們的尺寸大小都是在CUDA程序中分發(fā)Kernel時指定。下圖程序中vecAdd就是Kernel程序,Kernel的分發(fā)是由<<<...>>>語法定義,其中規(guī)定了要分發(fā)的Kernel程序,Grid和Block的尺寸,以及Kernel程序的參數(shù)。在實際執(zhí)行過程中,GPU會以Block為單位,把相同Block的線程分配給同一個SM進(jìn)行運(yùn)算,Block中的線程可以通過Shared Memory交換數(shù)據(jù)(注:Shared Memory訪問性能類似L1,與Cache由硬件控制對軟件透明不同,Shared Memory由軟件顯式移動數(shù)據(jù)),并支持相互同步操作。在硬件內(nèi)部,Block進(jìn)一步會被為分組成Warp,Warp是GPU硬件最小調(diào)度單位,Warp內(nèi)的線程被分配給SP按照SIMD的模式工作,也就是這些線程共享同樣的PC(程序計數(shù)器),以鎖步(Lockstep)的方式執(zhí)行指令。目前支持CUDA的GPU其Warp大小都是32,SM中SP的數(shù)量可能只有8或者16,在這種情況下,一條指令Warp需要跨幾個時鐘分批執(zhí)行。我們再來看下GPU硬件可以支持的線程數(shù)量,以Fermi GF100為例,該GPU一共有16個SM,每個SM最多可以容納48個Warp,也就是1536個線程,整個GPU可以支持24576 個線程同時在線。我們可以與CPU對照下,消費(fèi)級CPU一般有2~8個核,就算打開Hyperthreading,一共也就支持十幾個硬件線程同時在線。為了避免一些高延遲指令引起處理單元流水線停頓,CPU和GPU采取了完全不同的做法。- CPU的做法是一方面窮盡所能充分挖掘指令級并行來規(guī)避,另一方面通過各級Cache來掩蓋訪問內(nèi)存延遲,萬不得已CPU才會切換到別的硬件線程執(zhí)行。硬件線程數(shù)量太多切換太頻繁即使有助于整體吞吐卻惡化單個線程的延遲對CPU設(shè)計來說也是不可接受的,所以我們可以看到Hyperthread的數(shù)目一般都比較少。
- GPU的做法是另外一種思路,大規(guī)模數(shù)據(jù)并行帶來海量的可執(zhí)行線程,GPU完全可以通過切換到別的線程Warp來規(guī)避指令延遲帶來處理單元的停頓。這種切換會非常頻繁,需要在很短時間完成(比如一個時鐘),所以無論每個線程執(zhí)行需要的的寄存器堆還是Block之內(nèi)線程的Shared Memory從一開始就要分配妥當(dāng),切換過程中線程上下文一直駐留,直到線程或者整個Block執(zhí)行結(jié)束才能釋放。所以相比CPU,GPU的Register File大小非常驚人,而其處理單元的設(shè)計卻可以異常簡單。二,GPU的Memory Hierarchy
根據(jù)我們先前文章《多線程計算平臺的性能模型
》的觀察,一方面GPU通過同時運(yùn)行很多簡單的線程,不使用或者只利用相對較小的Cache,而主要通過線程間的并行來隱藏內(nèi)存訪問延遲。另一方面顯存帶寬對整體計算吞吐又有重要意義,直接關(guān)系到GPU性能伸縮能力。所以如下圖所示,GPU存儲層次設(shè)計的時候,相比Latency,更重視Throughput,而且各級存儲容量相對偏小。以Fermi GF100 GPU為例,下圖是其存儲層次結(jié)構(gòu),F(xiàn)ermi GPU是CUDA GPU第一次添加L1和L2的支持,其中L1和Shared Memory共享同一塊片上內(nèi)存,每個SM各64K大小,可以根據(jù)要求以48K/16K或者16K/48K在L1和Shared Memory之間分配。下面表格是幾代CUDA GPU的L1、L2和Register File大小配置。我們可以看到最早的CUDA GPU也就是G80都沒有通用的L1和L2,只有16K的Shared Memory。至于為什么添加Cache的支持,主要是考慮到對某些應(yīng)用來說可能沒有足夠的數(shù)據(jù)并行來掩藏訪存延遲,而對另外一些應(yīng)用其數(shù)據(jù)重用模式不可預(yù)測無法有效利用軟件控制的Shared Memory,總之是為了讓GPU變得更通用,能夠兼容更多的計算范式。饒有趣味的是,對GF100,RF大小總共為2048K,L1為48x16=768K,L2也是768K,RF反而比L1和L2都要大,而L1和L2差不多,其它GPU也有類似現(xiàn)象,這好像大大顛覆了我們之前在《衡量計算效能的正確姿勢(3)》了解的CPU存儲層次類似金字塔型的結(jié)構(gòu),不知道讀者們有何感想?夏日炎炎不是讀書天,這篇文章拖了好長時間,實在無法忍受才終于出爐,文章內(nèi)容都是紙上功夫,請各位看官抱將信將疑的態(tài)度,如果有明顯錯誤,歡迎后臺留言糾正。下篇不知又要到什么時候,這次就先不預(yù)告內(nèi)容了。主要參考資料:- Many-core vs?many-thread machines: Stay away from the valley
- Cuda C Programming Guide
- CUDA Warps and Occupancy
- SIMD < SIMT < SMT: parallelism in NVIDIA GPUs
- The Top 10 Innovations in the New NVIDIA Fermi Architecture, and the Top 3 Next Challenges
~~~~~~~~~~~~~~~~~~~~~~~~~~~~如果覺著內(nèi)容有幫助,請幫忙關(guān)注、點(diǎn)贊、在看并分享給更多的朋友。謝謝!
本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除( 郵箱:macysun@21ic.com )。
當(dāng)?shù)貢r間 3 月 30 日消息,法國大模型廠商 Mistral AI 完成首輪債務(wù)融資,總額達(dá)8.3 億美元,資金將全部用于擴(kuò)建 AI 算力基礎(chǔ)設(shè)施,核心用途為采購英偉達(dá) GPU。
關(guān)鍵字:
AI
Mistral
英偉達(dá)
GPU
面向所有熱愛硬核技術(shù)的你:這一次,用代碼說話,用性能封神。 北京2026年3月25日 /美通社/ -- 在 DeepSeek-R1 和 Kimi K2.5 等頂級開源模型確立了萬億參數(shù)的工業(yè)基準(zhǔn)后,真正的極限性能壓榨才...
關(guān)鍵字:
AMD
EPS
PSE
GPU
March 18, 2026 ---- 根據(jù)TrendForce集邦咨詢最新AI Server研究,在大型云端服務(wù)供應(yīng)商(CSP)加大自研芯片力道的情況下,NVIDIA(英偉達(dá))在GTC 2026大會改為著重各領(lǐng)域的AI...
關(guān)鍵字:
ASIC
GPU
CPU
可擴(kuò)展邊緣計算性能,從容應(yīng)對嚴(yán)苛應(yīng)用挑戰(zhàn)
關(guān)鍵字:
邊緣計算
CPU
GPU
Nscale收購Monarch計算園區(qū)——美國首個獲州認(rèn)證的AI微電網(wǎng),現(xiàn)場供電能力最高可擴(kuò)展至8吉瓦以上 Nscale與Microsoft簽署意向書,提供高達(dá)1....
關(guān)鍵字:
NVIDIA
MICROSOFT
GPU
TE
加州圣荷西2026年3月17日 /美通社/ -- 全球高效能、節(jié)能服務(wù)器解決方案領(lǐng)導(dǎo)廠商,神達(dá)控股股份有限公司(股票代號:3706)旗下子公司神雲(yún)科技股份有限公司(MiTAC Computing Technology C...
關(guān)鍵字:
NVIDIA
TC
AI
GPU
加利福尼亞州圣何塞 —— GTC —— 太平洋時間 2026 年 3 月 16 日 —— NVIDIA 今日宣布,正與包括 Cadence、達(dá)索系統(tǒng)、PTC、西門子和新思科技等在內(nèi)的全球領(lǐng)先工業(yè)軟件廠商合作,將 NVID...
關(guān)鍵字:
GPU
AI
數(shù)字孿生
上海2026年3月12日 /美通社/ -- 繼3月5日在硅谷成功舉辦全球品牌發(fā)布會后,圖靈進(jìn)化攜其AI全棧解決方案首次亮相中國家電及消費(fèi)電子博覽會(AWE 2026)。 在展會上,圖靈進(jìn)化展示了覆蓋AI算力、存儲、...
關(guān)鍵字:
芯片
GPU
PS
全棧
礪算科技AWE2026:50余款專業(yè)應(yīng)用、近百款游戲適配,國產(chǎn)GPU交出實績
關(guān)鍵字:
礪算科技
AWE
渲推一體
GPU
芯原成熟的GPU、顯示處理與畸變矯正IP三者協(xié)同,支持AR顯示處理實現(xiàn)高度集成與低時延
關(guān)鍵字:
AR顯示
處理器
GPU
Feb. 25, 2026 ---- 根據(jù)TrendForce集邦咨詢最新AI server產(chǎn)業(yè)研究,為加速AI應(yīng)用導(dǎo)入與升級,全球云端服務(wù)供應(yīng)商(CSP)持續(xù)加強(qiáng)投資AI server及相關(guān)基礎(chǔ)建設(shè),預(yù)計2026年八大...
關(guān)鍵字:
AI
ASIC
GPU
Feb. 13, 2026 ---- 根據(jù)TrendForce集邦咨詢最新HBM產(chǎn)業(yè)研究,隨著AI基礎(chǔ)建設(shè)擴(kuò)張,對應(yīng)的GPU需求也不斷成長,預(yù)期NVIDIA(英偉達(dá)) Rubin平臺量產(chǎn)后,將帶動HBM4需求。目前三大存...
關(guān)鍵字:
HBM4
AI
GPU
Feb. 10, 2026 ---- 根據(jù)TrendForce集邦咨詢最新高速互連市場研究,為應(yīng)對AI所需的龐大運(yùn)算需求,Google(谷歌)新世代Ironwood機(jī)柜系統(tǒng)結(jié)合3D Torus網(wǎng)絡(luò)拓?fù)洹pollo OC...
關(guān)鍵字:
AI
數(shù)據(jù)中心
GPU
1月27日消息,國產(chǎn)GPU迎來了重磅更新,這家名叫天數(shù)智芯的公司發(fā)布的四代架構(gòu)路線圖顯示,明年超英偉達(dá)Rubin架構(gòu)。
關(guān)鍵字:
GPU
5nm
上海2026年1月22日 /美通社/ -- 以下報道來自海峽導(dǎo)報: 2025年末,隨著摩爾線程、沐曦股份在科創(chuàng)板上市后股價表現(xiàn)強(qiáng)勁,及2026年初壁仞科技成功登陸港股,國產(chǎn)高端GPU領(lǐng)軍企業(yè)集群加速對接資本市場。如今,...
關(guān)鍵字:
GPU
IP
進(jìn)程
BSP
1月21日消息,被稱為國產(chǎn)GPU第一股的摩爾線程今晚發(fā)布了2025年報預(yù)告,營收14.5億元到15.2億元,同比增長230.70%到246.67%,但依然虧損9.5億元到10.6億元。
關(guān)鍵字:
GPU
5nm
1月20日消息,最近,基于兆芯開勝KH-40000 32核心處理器打造的高性能服務(wù)器產(chǎn)品,成功落地南非塞拉利昂寶石礦區(qū)預(yù)測系統(tǒng),為礦產(chǎn)資源勘探提供核心算力支撐。
關(guān)鍵字:
CPU
GPU
上海2026年1月2日 /美通社/ -- 北京時間2026年1月2日,啟明創(chuàng)投投資企業(yè)、國產(chǎn)GPU領(lǐng)軍企業(yè)壁仞科技成功登陸港交所,成為2026年港股首家上市企業(yè)。壁仞科技(06082.HK)發(fā)行價為19.6港元/股,開盤...
關(guān)鍵字:
GPU
AI
芯片
智能計算
1月6日消息,在“全球最快游戲CPU”這個頭銜上,現(xiàn)在的AMD不可能讓步。
關(guān)鍵字:
CPU
GPU
隨著GPU功耗的持續(xù)攀升,AI服務(wù)器環(huán)境中的供電需求不斷增長,本文圍繞此趨勢展開討論。文中重點(diǎn)闡述了供電架構(gòu)從48V向800V的轉(zhuǎn)型變化,并探討了隨著數(shù)據(jù)中心基礎(chǔ)設(shè)施的演進(jìn),ADI在高壓熱插拔保護(hù)領(lǐng)域的持續(xù)創(chuàng)新成果。
關(guān)鍵字:
熱插拔保護(hù)
GPU
AI服務(wù)器