異構(gòu)智能嵌入式系統(tǒng)AI模型推理與部署優(yōu)化——從模型輕量化到系統(tǒng)級加速的綜述與展望
掃描二維碼
隨時隨地手機(jī)看文章
深度神經(jīng)網(wǎng)絡(luò)模型輕量化技術(shù)是突破人工智能應(yīng)用在嵌入式系統(tǒng)部署瓶頸的關(guān)鍵路徑,其通過算法重構(gòu)與參數(shù)壓縮的雙重優(yōu)化,在可接受網(wǎng)絡(luò)精度損失范圍內(nèi)構(gòu)建高效推理模型。在算法層面,知識蒸餾技術(shù)實現(xiàn)復(fù)雜模型向輕量化架構(gòu)的能力遷移,配合模塊化網(wǎng)絡(luò)設(shè)計降低結(jié)構(gòu)冗余;參數(shù)剪枝(結(jié)構(gòu)化/非結(jié)構(gòu)化)、量化(二值化/混合精度)及低秩分解等方法系統(tǒng)性地減少模型計算量[1]。硬件適配層面則通過稀疏矩陣加速器、多分支網(wǎng)絡(luò)架構(gòu)等定制化設(shè)計,提升輕量化模型在嵌入式異構(gòu)平臺的能效表現(xiàn),形成算法–硬件協(xié)同優(yōu)化方法[2]。
面向大語言模型的嵌入式部署需求,輕量化技術(shù)呈現(xiàn)細(xì)粒度創(chuàng)新趨勢:一方面,根據(jù)量化所應(yīng)用的不同階段,可以將量化方法分為三類:量化感知訓(xùn)練(QAT, Quantization-Aware Training)、量化感知微調(diào)(QAF, Quantization-Aware Fine-tuning)及訓(xùn)練后量化(PTQ, Post-Training Quantization) [3]。QAT在模型的訓(xùn)練過程中采用量化,QAF在預(yù)訓(xùn)練模型的微調(diào)階段應(yīng)用量化,PTQ在模型完成訓(xùn)練后對其進(jìn)行量化,并結(jié)合硬件特性開發(fā)出極限低比特的整型(如INT4、INT8)壓縮方案;另一方面,混合專家模型等異構(gòu)架構(gòu)革新了模型部署范式,通過大小模型動態(tài)協(xié)作實現(xiàn)推理效率的階躍式提升[4]。此類技術(shù)使百億參數(shù)級模型在嵌入式設(shè)備端的實時推理成為可能,推動嵌入式系統(tǒng)向智能認(rèn)知層級跨越。
2. 嵌入式智能系統(tǒng)推理優(yōu)化加速技術(shù)發(fā)展現(xiàn)狀
當(dāng)前嵌入式智能系統(tǒng)的網(wǎng)絡(luò)模型部署主要集中在推理加速優(yōu)化,其技術(shù)策略在保持模型精度的前提下提升運行效率。核心優(yōu)化方向包括網(wǎng)絡(luò)模型編譯優(yōu)化、異構(gòu)資源調(diào)度以及存儲計算優(yōu)化。英偉達(dá)的TensorRT推理框架通過算子融合與內(nèi)存優(yōu)化技術(shù)有效提升了推理速度[5]。關(guān)于網(wǎng)絡(luò)模型推理任務(wù)在異構(gòu)計算單元上的分配方法,當(dāng)前研究工作采用模型并行、數(shù)據(jù)并行和流水線并行等模型的推理加速方法,進(jìn)一步提升了嵌入式系統(tǒng)上的模型推理性能[6]。
在大語言模型在嵌入式系統(tǒng)上優(yōu)化部署方面,伊利諾伊大學(xué)針對大模型輸出長度不確定導(dǎo)致的端到端推理時間不可預(yù)測問題,提出了一種推測性最短作業(yè)優(yōu)先調(diào)度器。該方案利用輕量級代理模型預(yù)測大模型輸出序列長度,有效解決了傳統(tǒng)先到先服務(wù)調(diào)度的隊首阻塞問題[7]。英偉達(dá)開發(fā)了動態(tài)內(nèi)存壓縮技術(shù),通過在推理過程中在線壓縮鍵值緩存,成功緩解因輸入序列長度與批處理規(guī)模線性增長引發(fā)的緩存膨脹問題[8]。首爾大學(xué)提出的細(xì)粒度調(diào)度機(jī)制實現(xiàn)了迭代級連續(xù)批處理,可通過動態(tài)整合多個大模型請求顯著提升推理效率[9]。針對Transformer架構(gòu)的計算特性,學(xué)界提出了KV緩存復(fù)用、FlashAttention以及PageAttention等加速方法[10],并結(jié)合投機(jī)采樣與混合專家模型技術(shù),在保證模型精度的前提下實現(xiàn)推理效率突破。
國內(nèi)研究團(tuán)隊在模型推理加速領(lǐng)域取得顯著進(jìn)展。北京郵電大學(xué)在片上神經(jīng)處理單元實現(xiàn)高效設(shè)備端大模型預(yù)填充加速的系統(tǒng),該系統(tǒng)通過在提示供工程、張量和模型三個層次上優(yōu)化了大模型在端側(cè)設(shè)備上的推理,從而顯著減少了推理延遲[11]。東北大學(xué)在邊端系統(tǒng)推理加速方面積累了較多的系統(tǒng)部署優(yōu)化基礎(chǔ),其中GPU并行加速方面研究了GPU內(nèi)部異構(gòu)計算核心的并行策略,提升了系統(tǒng)整理利用率和任務(wù)吞吐量[12]。國內(nèi)人工智能團(tuán)隊DeepSeek通過創(chuàng)新的多頭隱式注意力(MLA)設(shè)計,突破了現(xiàn)有優(yōu)化方案的瓶頸,使得模型在存儲和計算效率上達(dá)到了新的高度[13]。
3. 動態(tài)智能任務(wù)實時調(diào)度方法發(fā)展現(xiàn)狀
動態(tài)神經(jīng)網(wǎng)絡(luò)通過運行時自適應(yīng)調(diào)整模型結(jié)構(gòu)或參數(shù),成為實時系統(tǒng)應(yīng)對計算資源約束的關(guān)鍵技術(shù)。其核心優(yōu)勢在于能夠根據(jù)輸入特征(如圖像尺寸、批處理規(guī)模)及系統(tǒng)約束(如截止期限、資源限制),如圖1所示,動態(tài)神經(jīng)網(wǎng)絡(luò)通過靈活調(diào)整網(wǎng)絡(luò)壓縮率、分支路徑或輸出節(jié)點,實現(xiàn)負(fù)載的動態(tài)適配[14]-[16]。例如,通過動態(tài)調(diào)節(jié)輸入圖像分辨率或網(wǎng)絡(luò)分支選擇,模型可在保證模型精度的同時顯著降低推理延遲,滿足工業(yè)物聯(lián)網(wǎng)、自動駕駛等場景的實時性需求。
Figure 1. Dynamic neural network-based workload adjustment method
圖1. 動態(tài)神經(jīng)網(wǎng)絡(luò)調(diào)節(jié)計算負(fù)載方法
在動態(tài)推理DNN任務(wù)方面,學(xué)術(shù)界提出了多維度的系統(tǒng)調(diào)度方法。美國得克薩斯大學(xué)所提出的近似網(wǎng)絡(luò),量化了計算負(fù)載縮減與精度/時延的關(guān)聯(lián)模型,支持運行時動態(tài)負(fù)載調(diào)整[17] [18]。韓國慶熙大學(xué)研究者結(jié)合GPU最壞執(zhí)行時間分析與自適應(yīng)圖像縮放技術(shù),設(shè)計了動態(tài)路徑切換機(jī)制,在任務(wù)截止期約束下將精度損失降至最低[19] [20]。工業(yè)界則聚焦輕量化動態(tài)架構(gòu)創(chuàng)新,如三星公司提出的分支條件神經(jīng)網(wǎng)絡(luò)(BPNet)實現(xiàn)了系統(tǒng)化的時間與精度權(quán)衡[21]。蘋果公司開發(fā)的UPSCALE通道剪枝策略通過權(quán)重重排序技術(shù),實現(xiàn)了無顯著時延代價的動態(tài)網(wǎng)絡(luò)裁剪[22]。微軟提出基于全局的大批量LLM推理優(yōu)化前綴共享和面向吞吐量的令牌批處理方法,通過全局前綴識別與請求調(diào)度重組、內(nèi)存中心的分批處理及水平融合注意力核優(yōu)化,實現(xiàn)共享前綴的KV上下文高效復(fù)用、預(yù)填充與解碼階段的GPU負(fù)載均衡,顯著提升工業(yè)場景下大批量LLM推理效率[23]。北卡羅萊納大學(xué)提出的SubFlow框架從模型結(jié)構(gòu)層面出發(fā),利用動態(tài)誘導(dǎo)子圖策略在運行時根據(jù)任務(wù)截止期自適應(yīng)選擇子網(wǎng)絡(luò)路徑,實現(xiàn)了可變時間預(yù)算下的低時延高精度推理,為網(wǎng)絡(luò)任務(wù)動態(tài)推理提供了新思路[24]。韓國漢陽大學(xué)提出的Exegpt系統(tǒng)則從系統(tǒng)層面出發(fā),引入約束感知資源調(diào)度機(jī)制,通過聯(lián)合優(yōu)化批量大小與GPU分配,在延遲約束下實現(xiàn)高吞吐并發(fā)推理,體現(xiàn)了動態(tài)推理在資源調(diào)度與QoS保障方面的潛力[25]。
國內(nèi)學(xué)者在動態(tài)自適應(yīng)負(fù)載建模與部署優(yōu)化方面取得顯著進(jìn)展。清華大學(xué)團(tuán)隊系統(tǒng)闡述了動態(tài)神經(jīng)網(wǎng)絡(luò)的理論框架[16]。上海交通大學(xué)通過擴(kuò)展深度學(xué)習(xí)編譯器實現(xiàn)了動態(tài)網(wǎng)絡(luò)的高效推理支持[26]。上??萍即髮W(xué)進(jìn)一步提出帶時間約束的自適應(yīng)任務(wù)模型,構(gòu)建了兼顧服務(wù)質(zhì)量與實時性的調(diào)度優(yōu)化框架[1]。西北工業(yè)大學(xué)則聚焦環(huán)境自適應(yīng)技術(shù),通過動態(tài)調(diào)整模型參數(shù)降低資源消耗,為智能物聯(lián)網(wǎng)系統(tǒng)提供高效解決方案[27]。香港中文大學(xué)利用深度學(xué)習(xí)編譯技術(shù)在GPU上實現(xiàn)多DNN推理任務(wù)調(diào)度,在不損失網(wǎng)絡(luò)精度的情況下,通過神經(jīng)網(wǎng)絡(luò)圖和內(nèi)核優(yōu)化,提高GPU并行性,減少多任務(wù)之間的資源爭用[28]。東北大學(xué)在異構(gòu)CPU-GPU平臺上的多DNN調(diào)度方面[29],采用有效的CUDA流優(yōu)先級管理方法實現(xiàn)了不同優(yōu)先級多DNN任務(wù)在共享GPU上的實時調(diào)度策略。
4. 發(fā)展趨勢與展望
隨著大模型逐步滲透至邊緣端,主流技術(shù)的發(fā)展推動了模型輕量化和壓縮技術(shù)的突破。通過模型壓縮、量化和知識蒸餾等手段,使得模型在資源受限的嵌入式設(shè)備(如手機(jī)和機(jī)器人)上實現(xiàn)高效推理和實時響應(yīng),同時配合實時調(diào)度技術(shù),確保動態(tài)任務(wù)處理能力。2025年被視為“具身智能元年”,嵌入式系統(tǒng)借助輕量化和壓縮技術(shù),助力人形機(jī)器人在工業(yè)、醫(yī)療、家庭和自動駕駛等場景中完成復(fù)雜操作與實時決策,體現(xiàn)了主流技術(shù)在物理交互領(lǐng)域的應(yīng)用優(yōu)勢和調(diào)度能力。原生多模態(tài)大模型整合視覺、音頻、文本及3D數(shù)據(jù),通過端到端訓(xùn)練實現(xiàn)數(shù)據(jù)對齊,并借助低功耗AI芯片和邊緣計算平臺降低推理延遲。此過程中,模型輕量化與實時調(diào)度技術(shù)是實現(xiàn)綜合感知與實時處理的關(guān)鍵支撐。未來嵌入式智能系統(tǒng)將向垂直領(lǐng)域定制化發(fā)展,例如醫(yī)療診斷、農(nóng)業(yè)機(jī)器人和消費電子。主流技術(shù)的發(fā)展促使模型更輕量、壓縮更高效,同時借助實時調(diào)度實現(xiàn)自主智能體的動態(tài)任務(wù)管理,推動“All-in-One”超級應(yīng)用的崛起,實現(xiàn)多場景智能服務(wù)??傊度胧街悄芟到y(tǒng)的發(fā)展正依托主流技術(shù)的模型輕量化、壓縮技術(shù)及實時調(diào)度能力,實現(xiàn)高效推理、多模態(tài)融合和精細(xì)化物理交互。未來,這些技術(shù)將在垂類應(yīng)用與自主智能體領(lǐng)域發(fā)揮核心作用。
基金項目
本文受山東省自然科學(xué)基金資助項目ZR2024QF052。





