黄片三级片性爱亚洲96,亚洲中午无码色图精品亚洲,中文免费无码A∨

當(dāng)前位置：首頁(yè) > 嵌入式 > Linux閱碼場(chǎng)

[導(dǎo)讀]在《近距離看GPU計(jì)算》系列第一篇里我們介紹了GPU的一些基礎(chǔ)知識(shí)及其如何從圖形加速設(shè)備演化到通用計(jì)算平臺(tái)。本文我們會(huì)具體從處理單元設(shè)計(jì)和存儲(chǔ)層次結(jié)構(gòu)兩個(gè)方面探討GPU不同于CPU的特點(diǎn)，再次確認(rèn)我們反復(fù)申明的GPU更重視整體的Throughput而CPU更在乎具體任務(wù)的Late...

在《近距離看GPU計(jì)算》系列第一篇里我們介紹了GPU的一些基礎(chǔ)知識(shí)及其如何從圖形加速設(shè)備演化到通用計(jì)算平臺(tái)。本文我們會(huì)具體從處理單元設(shè)計(jì)和存儲(chǔ)層次結(jié)構(gòu)兩個(gè)方面探討GPU不同于CPU的特點(diǎn)，再次確認(rèn)我們反復(fù)申明的GPU更重視整體的Throughput而CPU更在乎具體任務(wù)的Latency。CPU和GPU從一開(kāi)始就是為不同的目標(biāo)而設(shè)計(jì)，CPU雖然也可以同時(shí)執(zhí)行多個(gè)線程，但其旨在高效地處理串行指令，通過(guò)許多復(fù)雜技術(shù)優(yōu)化提高指令級(jí)并行以便可以盡快執(zhí)行串行程序。而GPU卻是生而為同時(shí)執(zhí)行成千上萬(wàn)個(gè)線程，犧牲單個(gè)線程性能換取整體性能最大化。下圖對(duì)CPU與GPU的抽象架構(gòu)進(jìn)行了比對(duì)，其中Control是控制器、Core是處理單元、Cache指的是各級(jí)緩存、DRAM就是內(nèi)存。我們可以看到GPU設(shè)計(jì)者將更多的晶體管用作執(zhí)行單元，而不是像CPU那樣用作復(fù)雜的控制邏輯和緩存。

在下面章節(jié)里，我們會(huì)具體討論這兩種設(shè)計(jì)面向帶來(lái)的影響，在本文討論里筆者盡量不拘泥具體產(chǎn)商的特定GPU產(chǎn)品，而是希望能給出一般的指引，但是因?yàn)槲谋静牧系膬?yōu)勢(shì)以及在通用計(jì)算領(lǐng)域明顯的優(yōu)勢(shì)地位，我們大概還是不能脫離Nvidia GPU的語(yǔ)境， AMD GPU的處理單元設(shè)計(jì)細(xì)節(jié)與Nvidia有較大不同，以后我們可以專文討論。

一，SIMT和硬件多線程

根據(jù)計(jì)算機(jī)歷史上有名的的費(fèi)林分類(lèi)法(Flynn's Taxonomy)，如下圖所示計(jì)算機(jī)體系架構(gòu)可以簡(jiǎn)單分為四類(lèi)，分別是：

單一指令流單一數(shù)據(jù)流計(jì)算機(jī)(SISD, Single Instruction Single Data)
單一指令流多數(shù)據(jù)流計(jì)算機(jī)(SIMD, Single Instruction Multiple Data)
多指令流單一數(shù)據(jù)流計(jì)算機(jī)(MISD, Multiple Instruction Single?Data)
多指令流多數(shù)據(jù)流計(jì)算機(jī)(MIMD, Multiple Instruction Multiple?Data)

單核CPU可以歸類(lèi)為SISD，多核CPU屬于MIMD。我們重點(diǎn)關(guān)注的SIMD指的是采用一個(gè)控制器來(lái)控制多個(gè)處理單元，同時(shí)對(duì)一組數(shù)據(jù)的元素分別執(zhí)行相同的操作從而實(shí)現(xiàn)空間上并行的技術(shù)。傳統(tǒng)CPU的指令擴(kuò)展SSE和NEON都屬于典型的SIMD?，F(xiàn)代GPU在SIMD基礎(chǔ)上發(fā)展出SIMT(Single Instruction Multiple Thread)的執(zhí)行架構(gòu)。傳統(tǒng)SIMD是一個(gè)線程調(diào)用向量處理單元(Vector ALU)執(zhí)行向量指令來(lái)操作向量寄存器完成運(yùn)算，而SIMT往往由一組標(biāo)量處理單元(Scalar ALU)構(gòu)成，每個(gè)處理單元對(duì)應(yīng)一個(gè)硬件線程，所有處理單元共享指令預(yù)取/譯碼模塊并接收同一指令共同完成SIMD類(lèi)型運(yùn)算，運(yùn)行其上的線程可以有自己的寄存器堆，獨(dú)立的內(nèi)存訪問(wèn)尋址以及執(zhí)行分支。我們以Nvida CUDA為例來(lái)介紹SIMT是如何運(yùn)作的。下圖是有關(guān)分發(fā)CUDA的計(jì)算任務(wù)到GPU硬件上執(zhí)行，展示了軟硬件視角各個(gè)層級(jí)的對(duì)應(yīng)關(guān)系。

我們先介紹層級(jí)圖右面的GPU硬件層次，CUDA的GPU有很多SM(Streaming Multiprocesso)組成。一個(gè)SM又有很多SP(Streaming Processor)構(gòu)成，SP是每個(gè)線程具體執(zhí)行指令所在，SP也采用流水線設(shè)計(jì)以提高指令級(jí)并行，但它一般都是順序執(zhí)行，很少使用分支預(yù)測(cè)、動(dòng)態(tài)執(zhí)行等復(fù)雜技術(shù)。

在GPU通用計(jì)算語(yǔ)境下GPU設(shè)備上執(zhí)行的程序被稱為Kernel，針對(duì)某個(gè)Kernel分發(fā)的所有線程都執(zhí)行相同的程序，這些線程被組織成一系列層次結(jié)構(gòu)，也就是Grid和Block，如層級(jí)圖左邊所示。Grid規(guī)定各個(gè)維度Block的數(shù)量，Block規(guī)定各個(gè)維度線程的數(shù)量，它們的尺寸大小都是在CUDA程序中分發(fā)Kernel時(shí)指定。下圖程序中vecAdd就是Kernel程序，Kernel的分發(fā)是由<<<...>>>語(yǔ)法定義，其中規(guī)定了要分發(fā)的Kernel程序，Grid和Block的尺寸，以及Kernel程序的參數(shù)。

在實(shí)際執(zhí)行過(guò)程中，GPU會(huì)以Block為單位，把相同Block的線程分配給同一個(gè)SM進(jìn)行運(yùn)算，Block中的線程可以通過(guò)Shared Memory交換數(shù)據(jù)(注：Shared Memory訪問(wèn)性能類(lèi)似L1，與Cache由硬件控制對(duì)軟件透明不同，Shared Memory由軟件顯式移動(dòng)數(shù)據(jù))，并支持相互同步操作。在硬件內(nèi)部，Block進(jìn)一步會(huì)被為分組成Warp，Warp是GPU硬件最小調(diào)度單位，Warp內(nèi)的線程被分配給SP按照SIMD的模式工作，也就是這些線程共享同樣的PC(程序計(jì)數(shù)器)，以鎖步(Lockstep)的方式執(zhí)行指令。目前支持CUDA的GPU其Warp大小都是32，SM中SP的數(shù)量可能只有8或者16，在這種情況下，一條指令Warp需要跨幾個(gè)時(shí)鐘分批執(zhí)行。我們?cè)賮?lái)看下GPU硬件可以支持的線程數(shù)量，以Fermi GF100為例，該GPU一共有16個(gè)SM，每個(gè)SM最多可以容納48個(gè)Warp，也就是1536個(gè)線程，整個(gè)GPU可以支持24576 個(gè)線程同時(shí)在線。我們可以與CPU對(duì)照下，消費(fèi)級(jí)CPU一般有2~8個(gè)核，就算打開(kāi)Hyperthreading，一共也就支持十幾個(gè)硬件線程同時(shí)在線。為了避免一些高延遲指令引起處理單元流水線停頓，CPU和GPU采取了完全不同的做法。

CPU的做法是一方面窮盡所能充分挖掘指令級(jí)并行來(lái)規(guī)避，另一方面通過(guò)各級(jí)Cache來(lái)掩蓋訪問(wèn)內(nèi)存延遲，萬(wàn)不得已CPU才會(huì)切換到別的硬件線程執(zhí)行。硬件線程數(shù)量太多切換太頻繁即使有助于整體吞吐卻惡化單個(gè)線程的延遲對(duì)CPU設(shè)計(jì)來(lái)說(shuō)也是不可接受的，所以我們可以看到Hyperthread的數(shù)目一般都比較少。
GPU的做法是另外一種思路，大規(guī)模數(shù)據(jù)并行帶來(lái)海量的可執(zhí)行線程，GPU完全可以通過(guò)切換到別的線程Warp來(lái)規(guī)避指令延遲帶來(lái)處理單元的停頓。這種切換會(huì)非常頻繁，需要在很短時(shí)間完成(比如一個(gè)時(shí)鐘)，所以無(wú)論每個(gè)線程執(zhí)行需要的的寄存器堆還是Block之內(nèi)線程的Shared Memory從一開(kāi)始就要分配妥當(dāng)，切換過(guò)程中線程上下文一直駐留，直到線程或者整個(gè)Block執(zhí)行結(jié)束才能釋放。所以相比CPU，GPU的Register File大小非常驚人，而其處理單元的設(shè)計(jì)卻可以異常簡(jiǎn)單。
二，GPU的Memory Hierarchy

根據(jù)我們先前文章《多線程計(jì)算平臺(tái)的性能模型》的觀察，一方面GPU通過(guò)同時(shí)運(yùn)行很多簡(jiǎn)單的線程，不使用或者只利用相對(duì)較小的Cache，而主要通過(guò)線程間的并行來(lái)隱藏內(nèi)存訪問(wèn)延遲。另一方面顯存帶寬對(duì)整體計(jì)算吞吐又有重要意義，直接關(guān)系到GPU性能伸縮能力。所以如下圖所示，GPU存儲(chǔ)層次設(shè)計(jì)的時(shí)候，相比Latency，更重視Throughput，而且各級(jí)存儲(chǔ)容量相對(duì)偏小。

以Fermi GF100 GPU為例，下圖是其存儲(chǔ)層次結(jié)構(gòu)，F(xiàn)ermi GPU是CUDA GPU第一次添加L1和L2的支持，其中L1和Shared Memory共享同一塊片上內(nèi)存，每個(gè)SM各64K大小，可以根據(jù)要求以48K/16K或者16K/48K在L1和Shared Memory之間分配。

下面表格是幾代CUDA GPU的L1、L2和Register File大小配置。我們可以看到最早的CUDA GPU也就是G80都沒(méi)有通用的L1和L2，只有16K的Shared Memory。至于為什么添加Cache的支持，主要是考慮到對(duì)某些應(yīng)用來(lái)說(shuō)可能沒(méi)有足夠的數(shù)據(jù)并行來(lái)掩藏訪存延遲，而對(duì)另外一些應(yīng)用其數(shù)據(jù)重用模式不可預(yù)測(cè)無(wú)法有效利用軟件控制的Shared Memory，總之是為了讓GPU變得更通用，能夠兼容更多的計(jì)算范式。

饒有趣味的是，對(duì)GF100，RF大小總共為2048K，L1為48x16=768K，L2也是768K，RF反而比L1和L2都要大，而L1和L2差不多，其它GPU也有類(lèi)似現(xiàn)象，這好像大大顛覆了我們之前在《衡量計(jì)算效能的正確姿勢(shì)（3）》了解的CPU存儲(chǔ)層次類(lèi)似金字塔型的結(jié)構(gòu)，不知道讀者們有何感想？

夏日炎炎不是讀書(shū)天，這篇文章拖了好長(zhǎng)時(shí)間，實(shí)在無(wú)法忍受才終于出爐，文章內(nèi)容都是紙上功夫，請(qǐng)各位看官抱將信將疑的態(tài)度，如果有明顯錯(cuò)誤，歡迎后臺(tái)留言糾正。下篇不知又要到什么時(shí)候，這次就先不預(yù)告內(nèi)容了。

主要參考資料:

Many-core vs?many-thread machines: Stay away from the valley
Cuda C Programming Guide
CUDA Warps and Occupancy
SIMD < SIMT < SMT: parallelism in NVIDIA GPUs
The Top 10 Innovations in the New NVIDIA Fermi Architecture, and the Top 3 Next Challenges

~~~~~~~~~~~~~~~~~~~~~~~~~~~~

如果覺(jué)著內(nèi)容有幫助，請(qǐng)幫忙關(guān)注、點(diǎn)贊、在看并分享給更多的朋友。謝謝！

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

與傳統(tǒng)的驅(qū)動(dòng)方式相比，共陰恒流驅(qū)動(dòng)在能效有哪些優(yōu)勢(shì)

LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動(dòng)電源

[電源]

工業(yè)電機(jī)驅(qū)動(dòng)電源設(shè)計(jì)：反電動(dòng)勢(shì)抑制與過(guò)流保護(hù)的集成方案

在工業(yè)自動(dòng)化蓬勃發(fā)展的當(dāng)下，工業(yè)電機(jī)作為核心動(dòng)力設(shè)備，其驅(qū)動(dòng)電源的性能直接關(guān)系到整個(gè)系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動(dòng)勢(shì)抑制與過(guò)流保護(hù)是驅(qū)動(dòng)電源設(shè)計(jì)中至關(guān)重要的兩個(gè)環(huán)節(jié)，集成化方案的設(shè)計(jì)成為提升電機(jī)驅(qū)動(dòng)性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機(jī) 驅(qū)動(dòng)電源

[電源]

如何解決 LED 驅(qū)動(dòng)電源的易損壞問(wèn)題

LED 驅(qū)動(dòng)電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個(gè)照明設(shè)備的使用壽命。然而，在實(shí)際應(yīng)用中，LED 驅(qū)動(dòng)電源易損壞的問(wèn)題卻十分常見(jiàn)，不僅增加了維護(hù)成本，還影響了用戶體驗(yàn)。要解決這一問(wèn)題，需從設(shè)計(jì)、生...

關(guān)鍵字：驅(qū)動(dòng)電源照明系統(tǒng) 散熱

[電力電工電路]

LED設(shè)計(jì)中LED驅(qū)動(dòng)電源的公式

根據(jù)LED驅(qū)動(dòng)電源的公式，電感內(nèi)電流波動(dòng)大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設(shè)計(jì) 驅(qū)動(dòng)電源

[汽車(chē)電子]

EV主驅(qū)IGBT隔離驅(qū)動(dòng)電源方案選擇問(wèn)題探討

電動(dòng)汽車(chē)(EV)作為新能源汽車(chē)的重要代表，正逐漸成為全球汽車(chē)產(chǎn)業(yè)的重要發(fā)展方向。電動(dòng)汽車(chē)的核心技術(shù)之一是電機(jī)驅(qū)動(dòng)控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動(dòng)系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動(dòng)汽車(chē)的動(dòng)力性能和...

關(guān)鍵字：電動(dòng)汽車(chē) 新能源驅(qū)動(dòng)電源

[電源]

合理的驅(qū)動(dòng)電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設(shè)中，街道及停車(chē)場(chǎng)照明作為基礎(chǔ)設(shè)施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步，高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢(shì)逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動(dòng)電源 LED

[消費(fèi)電子]

AC-DC電源轉(zhuǎn)換拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)

LED通用照明設(shè)計(jì)工程師會(huì)遇到許多挑戰(zhàn)，如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字： LED 驅(qū)動(dòng)電源功率因數(shù)校正

[電源]

針對(duì)于LED照明驅(qū)動(dòng)電源技術(shù)中的電磁干擾其中的三大硬件問(wèn)題措施

在LED照明技術(shù)日益普及的今天，LED驅(qū)動(dòng)電源的電磁干擾(EMI)問(wèn)題成為了一個(gè)不可忽視的挑戰(zhàn)。電磁干擾不僅會(huì)影響LED燈具的正常工作，還可能對(duì)周?chē)娮釉O(shè)備造成不利影響，甚至引發(fā)系統(tǒng)故障。因此，采取有效的硬件措施來(lái)解決L...

關(guān)鍵字： LED照明技術(shù) 電磁干擾驅(qū)動(dòng)電源

[電源]

LED驅(qū)動(dòng)電源的核心部分“開(kāi)關(guān)管”和“變換器”設(shè)計(jì)技巧

開(kāi)關(guān)電源具有效率高的特性,而且開(kāi)關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機(jī)重量也有所下降,所以,現(xiàn)在的LED驅(qū)動(dòng)電源

關(guān)鍵字： LED 驅(qū)動(dòng)電源開(kāi)關(guān)電源

[電源]

最全LED驅(qū)動(dòng)電源及散熱設(shè)計(jì)方案介紹

LED驅(qū)動(dòng)電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動(dòng)LED發(fā)光的電壓轉(zhuǎn)換器，通常情況下：LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字： LED 隧道燈驅(qū)動(dòng)電源