異構(gòu)智能嵌入式系統(tǒng)AI模型推理與部署優(yōu)化——從模型輕量化到系統(tǒng)級加速的綜述與展望

時間：2025-12-23 16:20:44

關(guān)鍵字：異構(gòu)嵌入式系統(tǒng) 深度神經(jīng)網(wǎng)絡(luò) 推理加速實時調(diào)度

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]隨著人工智能技術(shù)與嵌入式硬件的快速發(fā)展，嵌入式人工智能系統(tǒng)(如移動機器人、自動駕駛汽車和星載無人機)在工業(yè)自動化、交通運輸和航空航天等關(guān)鍵領(lǐng)域變得越來越重要。作為集成CPU、GPU、NPU等多種異構(gòu)處理器單元的智能實時系統(tǒng)，其核心任務(wù)是通過計算密集型的深度神經(jīng)網(wǎng)絡(luò)(DNN)實現(xiàn)環(huán)境感知、決策控制等復(fù)雜功能，同時面臨嚴(yán)格的時間約束與資源瓶頸。文章從網(wǎng)絡(luò)模型在嵌入式系統(tǒng)加速推理優(yōu)化的角度，將圍繞DNN模型輕量化、推理加速優(yōu)化與動態(tài)任務(wù)調(diào)度三個方面，詳細(xì)分析嵌入式智能系統(tǒng)的國內(nèi)外研究現(xiàn)狀。

1. 引言

深度神經(jīng)網(wǎng)絡(luò)模型輕量化技術(shù)是突破人工智能應(yīng)用在嵌入式系統(tǒng)部署瓶頸的關(guān)鍵路徑，其通過算法重構(gòu)與參數(shù)壓縮的雙重優(yōu)化，在可接受網(wǎng)絡(luò)精度損失范圍內(nèi)構(gòu)建高效推理模型。在算法層面，知識蒸餾技術(shù)實現(xiàn)復(fù)雜模型向輕量化架構(gòu)的能力遷移，配合模塊化網(wǎng)絡(luò)設(shè)計降低結(jié)構(gòu)冗余；參數(shù)剪枝(結(jié)構(gòu)化/非結(jié)構(gòu)化)、量化(二值化/混合精度)及低秩分解等方法系統(tǒng)性地減少模型計算量[1]。硬件適配層面則通過稀疏矩陣加速器、多分支網(wǎng)絡(luò)架構(gòu)等定制化設(shè)計，提升輕量化模型在嵌入式異構(gòu)平臺的能效表現(xiàn)，形成算法–硬件協(xié)同優(yōu)化方法[2]。

面向大語言模型的嵌入式部署需求，輕量化技術(shù)呈現(xiàn)細(xì)粒度創(chuàng)新趨勢：一方面，根據(jù)量化所應(yīng)用的不同階段，可以將量化方法分為三類：量化感知訓(xùn)練(QAT, Quantization-Aware Training)、量化感知微調(diào)(QAF, Quantization-Aware Fine-tuning)及訓(xùn)練后量化(PTQ, Post-Training Quantization) [3]。QAT在模型的訓(xùn)練過程中采用量化，QAF在預(yù)訓(xùn)練模型的微調(diào)階段應(yīng)用量化，PTQ在模型完成訓(xùn)練后對其進(jìn)行量化，并結(jié)合硬件特性開發(fā)出極限低比特的整型(如INT4、INT8)壓縮方案；另一方面，混合專家模型等異構(gòu)架構(gòu)革新了模型部署范式，通過大小模型動態(tài)協(xié)作實現(xiàn)推理效率的階躍式提升[4]。此類技術(shù)使百億參數(shù)級模型在嵌入式設(shè)備端的實時推理成為可能，推動嵌入式系統(tǒng)向智能認(rèn)知層級跨越。

2. 嵌入式智能系統(tǒng)推理優(yōu)化加速技術(shù)發(fā)展現(xiàn)狀

當(dāng)前嵌入式智能系統(tǒng)的網(wǎng)絡(luò)模型部署主要集中在推理加速優(yōu)化，其技術(shù)策略在保持模型精度的前提下提升運行效率。核心優(yōu)化方向包括網(wǎng)絡(luò)模型編譯優(yōu)化、異構(gòu)資源調(diào)度以及存儲計算優(yōu)化。英偉達(dá)的TensorRT推理框架通過算子融合與內(nèi)存優(yōu)化技術(shù)有效提升了推理速度[5]。關(guān)于網(wǎng)絡(luò)模型推理任務(wù)在異構(gòu)計算單元上的分配方法，當(dāng)前研究工作采用模型并行、數(shù)據(jù)并行和流水線并行等模型的推理加速方法，進(jìn)一步提升了嵌入式系統(tǒng)上的模型推理性能[6]。

在大語言模型在嵌入式系統(tǒng)上優(yōu)化部署方面，伊利諾伊大學(xué)針對大模型輸出長度不確定導(dǎo)致的端到端推理時間不可預(yù)測問題，提出了一種推測性最短作業(yè)優(yōu)先調(diào)度器。該方案利用輕量級代理模型預(yù)測大模型輸出序列長度，有效解決了傳統(tǒng)先到先服務(wù)調(diào)度的隊首阻塞問題[7]。英偉達(dá)開發(fā)了動態(tài)內(nèi)存壓縮技術(shù)，通過在推理過程中在線壓縮鍵值緩存，成功緩解因輸入序列長度與批處理規(guī)模線性增長引發(fā)的緩存膨脹問題[8]。首爾大學(xué)提出的細(xì)粒度調(diào)度機制實現(xiàn)了迭代級連續(xù)批處理，可通過動態(tài)整合多個大模型請求顯著提升推理效率[9]。針對Transformer架構(gòu)的計算特性，學(xué)界提出了KV緩存復(fù)用、FlashAttention以及PageAttention等加速方法[10]，并結(jié)合投機采樣與混合專家模型技術(shù)，在保證模型精度的前提下實現(xiàn)推理效率突破。

國內(nèi)研究團隊在模型推理加速領(lǐng)域取得顯著進(jìn)展。北京郵電大學(xué)在片上神經(jīng)處理單元實現(xiàn)高效設(shè)備端大模型預(yù)填充加速的系統(tǒng)，該系統(tǒng)通過在提示供工程、張量和模型三個層次上優(yōu)化了大模型在端側(cè)設(shè)備上的推理，從而顯著減少了推理延遲[11]。東北大學(xué)在邊端系統(tǒng)推理加速方面積累了較多的系統(tǒng)部署優(yōu)化基礎(chǔ)，其中GPU并行加速方面研究了GPU內(nèi)部異構(gòu)計算核心的并行策略，提升了系統(tǒng)整理利用率和任務(wù)吞吐量[12]。國內(nèi)人工智能團隊DeepSeek通過創(chuàng)新的多頭隱式注意力(MLA)設(shè)計，突破了現(xiàn)有優(yōu)化方案的瓶頸，使得模型在存儲和計算效率上達(dá)到了新的高度[13]。

3. 動態(tài)智能任務(wù)實時調(diào)度方法發(fā)展現(xiàn)狀

動態(tài)神經(jīng)網(wǎng)絡(luò)通過運行時自適應(yīng)調(diào)整模型結(jié)構(gòu)或參數(shù)，成為實時系統(tǒng)應(yīng)對計算資源約束的關(guān)鍵技術(shù)。其核心優(yōu)勢在于能夠根據(jù)輸入特征(如圖像尺寸、批處理規(guī)模)及系統(tǒng)約束(如截止期限、資源限制)，如圖1所示，動態(tài)神經(jīng)網(wǎng)絡(luò)通過靈活調(diào)整網(wǎng)絡(luò)壓縮率、分支路徑或輸出節(jié)點，實現(xiàn)負(fù)載的動態(tài)適配[14]-[16]。例如，通過動態(tài)調(diào)節(jié)輸入圖像分辨率或網(wǎng)絡(luò)分支選擇，模型可在保證模型精度的同時顯著降低推理延遲，滿足工業(yè)物聯(lián)網(wǎng)、自動駕駛等場景的實時性需求。

Figure 1. Dynamic neural network-based workload adjustment method

圖1. 動態(tài)神經(jīng)網(wǎng)絡(luò)調(diào)節(jié)計算負(fù)載方法

在動態(tài)推理DNN任務(wù)方面，學(xué)術(shù)界提出了多維度的系統(tǒng)調(diào)度方法。美國得克薩斯大學(xué)所提出的近似網(wǎng)絡(luò)，量化了計算負(fù)載縮減與精度/時延的關(guān)聯(lián)模型，支持運行時動態(tài)負(fù)載調(diào)整[17] [18]。韓國慶熙大學(xué)研究者結(jié)合GPU最壞執(zhí)行時間分析與自適應(yīng)圖像縮放技術(shù)，設(shè)計了動態(tài)路徑切換機制，在任務(wù)截止期約束下將精度損失降至最低[19] [20]。工業(yè)界則聚焦輕量化動態(tài)架構(gòu)創(chuàng)新，如三星公司提出的分支條件神經(jīng)網(wǎng)絡(luò)(BPNet)實現(xiàn)了系統(tǒng)化的時間與精度權(quán)衡[21]。蘋果公司開發(fā)的UPSCALE通道剪枝策略通過權(quán)重重排序技術(shù)，實現(xiàn)了無顯著時延代價的動態(tài)網(wǎng)絡(luò)裁剪[22]。微軟提出基于全局的大批量LLM推理優(yōu)化前綴共享和面向吞吐量的令牌批處理方法，通過全局前綴識別與請求調(diào)度重組、內(nèi)存中心的分批處理及水平融合注意力核優(yōu)化，實現(xiàn)共享前綴的KV上下文高效復(fù)用、預(yù)填充與解碼階段的GPU負(fù)載均衡，顯著提升工業(yè)場景下大批量LLM推理效率[23]。北卡羅萊納大學(xué)提出的SubFlow框架從模型結(jié)構(gòu)層面出發(fā)，利用動態(tài)誘導(dǎo)子圖策略在運行時根據(jù)任務(wù)截止期自適應(yīng)選擇子網(wǎng)絡(luò)路徑，實現(xiàn)了可變時間預(yù)算下的低時延高精度推理，為網(wǎng)絡(luò)任務(wù)動態(tài)推理提供了新思路[24]。韓國漢陽大學(xué)提出的Exegpt系統(tǒng)則從系統(tǒng)層面出發(fā)，引入約束感知資源調(diào)度機制，通過聯(lián)合優(yōu)化批量大小與GPU分配，在延遲約束下實現(xiàn)高吞吐并發(fā)推理，體現(xiàn)了動態(tài)推理在資源調(diào)度與QoS保障方面的潛力[25]。

國內(nèi)學(xué)者在動態(tài)自適應(yīng)負(fù)載建模與部署優(yōu)化方面取得顯著進(jìn)展。清華大學(xué)團隊系統(tǒng)闡述了動態(tài)神經(jīng)網(wǎng)絡(luò)的理論框架[16]。上海交通大學(xué)通過擴展深度學(xué)習(xí)編譯器實現(xiàn)了動態(tài)網(wǎng)絡(luò)的高效推理支持[26]。上?？萍即髮W(xué)進(jìn)一步提出帶時間約束的自適應(yīng)任務(wù)模型，構(gòu)建了兼顧服務(wù)質(zhì)量與實時性的調(diào)度優(yōu)化框架[1]。西北工業(yè)大學(xué)則聚焦環(huán)境自適應(yīng)技術(shù)，通過動態(tài)調(diào)整模型參數(shù)降低資源消耗，為智能物聯(lián)網(wǎng)系統(tǒng)提供高效解決方案[27]。香港中文大學(xué)利用深度學(xué)習(xí)編譯技術(shù)在GPU上實現(xiàn)多DNN推理任務(wù)調(diào)度，在不損失網(wǎng)絡(luò)精度的情況下，通過神經(jīng)網(wǎng)絡(luò)圖和內(nèi)核優(yōu)化，提高GPU并行性，減少多任務(wù)之間的資源爭用[28]。東北大學(xué)在異構(gòu)CPU-GPU平臺上的多DNN調(diào)度方面[29]，采用有效的CUDA流優(yōu)先級管理方法實現(xiàn)了不同優(yōu)先級多DNN任務(wù)在共享GPU上的實時調(diào)度策略。

4. 發(fā)展趨勢與展望

隨著大模型逐步滲透至邊緣端，主流技術(shù)的發(fā)展推動了模型輕量化和壓縮技術(shù)的突破。通過模型壓縮、量化和知識蒸餾等手段，使得模型在資源受限的嵌入式設(shè)備(如手機和機器人)上實現(xiàn)高效推理和實時響應(yīng)，同時配合實時調(diào)度技術(shù)，確保動態(tài)任務(wù)處理能力。2025年被視為“具身智能元年”，嵌入式系統(tǒng)借助輕量化和壓縮技術(shù)，助力人形機器人在工業(yè)、醫(yī)療、家庭和自動駕駛等場景中完成復(fù)雜操作與實時決策，體現(xiàn)了主流技術(shù)在物理交互領(lǐng)域的應(yīng)用優(yōu)勢和調(diào)度能力。原生多模態(tài)大模型整合視覺、音頻、文本及3D數(shù)據(jù)，通過端到端訓(xùn)練實現(xiàn)數(shù)據(jù)對齊，并借助低功耗AI芯片和邊緣計算平臺降低推理延遲。此過程中，模型輕量化與實時調(diào)度技術(shù)是實現(xiàn)綜合感知與實時處理的關(guān)鍵支撐。未來嵌入式智能系統(tǒng)將向垂直領(lǐng)域定制化發(fā)展，例如醫(yī)療診斷、農(nóng)業(yè)機器人和消費電子。主流技術(shù)的發(fā)展促使模型更輕量、壓縮更高效，同時借助實時調(diào)度實現(xiàn)自主智能體的動態(tài)任務(wù)管理，推動“All-in-One”超級應(yīng)用的崛起，實現(xiàn)多場景智能服務(wù)?？傊?，嵌入式智能系統(tǒng)的發(fā)展正依托主流技術(shù)的模型輕量化、壓縮技術(shù)及實時調(diào)度能力，實現(xiàn)高效推理、多模態(tài)融合和精細(xì)化物理交互。未來，這些技術(shù)將在垂類應(yīng)用與自主智能體領(lǐng)域發(fā)揮核心作用。

基金項目

本文受山東省自然科學(xué)基金資助項目ZR2024QF052。

參考文獻(xiàn)

[1]	Wang, W., Chen, W., Luo, Y., Long, Y., Lin, Z., Zhang, L., et al. (2024) Model Compression and Efficient Inference for Large Language Models: A Survey. arXiv: 2402.09748.
[2]	Liu, D., Kong, H., Luo, X., Liu, W. and Subramaniam, R. (2022) Bringing AI to Edge: From Deep Learning’s Perspective. Neurocomputing, 485, 297-320. [Google Scholar] [CrossRef]
[3]	Zhou, Z., Ning, X., Hong, K., et al. (2024) A Survey on Efficient Inference for Large Language Models.
[4]	Dai, D., Deng, C., Zhao, C., Xu, R.X., Gao, H., Chen, D., et al. (2024) DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-Of-Experts Language Models. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Bangkok, 11-16 August 2024, 1280-1297. [Google Scholar] [CrossRef]
[5]	NVIDIA. (2024). TensorRT-LLM [Computer Software]. GitHub.
[6]	Ascend. (2024). AscendSpeed [Computer Software]. GitHub.
[7]	Qiu, H., Mao, W., Patke, A., et al. (2024) Efficient Interactive LLM Serving with Proxy Model-Based Sequence Length Prediction. arXiv: 2404.08509.
[8]	Nawrot, P., ?ańcucki, A., Chochowski, M., et al. (2024) Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference. arXiv: 2403.09636.
[9]	Yu, G.I., Jeong, J.S., Kim, G.W., et al. (2022) Orca: A Distributed Serving System for {Transformer-Based} Generative Models. 16th USENIX Symposium on Operating Systems Design and Implementation (OSDI 22), 521-538.
[10]	Kwon, W., Li, Z., Zhuang, S., Sheng, Y., Zheng, L., Yu, C.H., et al. (2023) Efficient Memory Management for Large Language Model Serving with PagedAttention. Proceedings of the 29th Symposium on Operating Systems Principles, Koblenz, 23-26 October 2023, 611-626. [Google Scholar] [CrossRef]
[11]	Xu, D., Zhang, H., Yang, L., et al. (2024) Empowering 1000 Tokens/Second On-Device LLM Prefilling with MLLM-NPU. arXiv: 2407.05858v1.
[12]	Pang, W., Jiang, X., Liu, S., Qiao, L., Fu, K., Gao, L., et al. (2024) Control Flow Divergence Optimization by Exploiting Tensor Cores. Proceedings of the 61st ACM/IEEE Design Automation Conference, San Francisco, 23-27 June 2024, 1-6. [Google Scholar] [CrossRef]
[13]	Meng, F., Yao, Z. and Zhang, M. (2025) TransMLA: Multi-Head Latent Attention Is All You Need. arXiv: 2502.07864.
[14]	王子曦, 邵培南, 鄧暢. 異構(gòu)并行平臺的Caffe推理速度提升方法[J]. 計算機系統(tǒng)應(yīng)用, 2022, 31(2): 220-226.
[15]	尚紹法, 蔣林, 李遠(yuǎn)成, 等. 異構(gòu)平臺下卷積神經(jīng)網(wǎng)絡(luò)推理模型自適應(yīng)劃分和調(diào)度方法[J]. 計算機應(yīng)用, 2023, 43(9): 2828-2835.
[16]	Han, Y., Huang, G., Song, S., Yang, L., Wang, H. and Wang, Y. (2022) Dynamic Neural Networks: A Survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44, 7436-7456. [Google Scholar] [CrossRef] [PubMed]
[17]	Bo, Z., Guo, C., Leng, C., Qiao, Y. and Wang, H. (2024) RTDeepEnsemble: Real-Time DNN Ensemble Method for Machine Perception Systems. 2024 IEEE 42nd International Conference on Computer Design (ICCD), Milan, 18-20 November 2024, 191-198. [Google Scholar] [CrossRef]
[18]	Han, Y., Liu, Z., Yuan, Z., Pu, Y., Wang, C., Song, S., et al. (2024) Latency-Aware Unified Dynamic Networks for Efficient Image Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46, 7760-7774. [Google Scholar] [CrossRef] [PubMed]
[19]	Heo, S., Jeong, S. and Kim, H. (2022) RTScale: Sensitivity-Aware Adaptive Image Scaling for Real-Time Object Detection. 34th Euro-Micro Conference on Real-Time Systems, Modena, 5-8 July 2022, 1-22.
[20]	Heo, S., Cho, S., Kim, Y. and Kim, H. (2020) Real-Time Object Detection System with Multi-Path Neural Networks. 2020 IEEE Real-Time and Embedded Technology and Applications Symposium (RTAS), Sydney, 21-24 April 2020, 174-187. [Google Scholar] [CrossRef]
[21]	Park, K., Oh, C. and Yi, Y. (2020) BPNet: Branch-Pruned Conditional Neural Network for Systematic Time-Accuracy Tradeoff. 2020 57th ACM/IEEE Design Automation Conference (DAC), San Francisco, 20-24 July 2020, 1-6. [Google Scholar] [CrossRef]
[22]	Wan, A., Hao, H., Patnaik, K., et al. (2023) UPSCALE: Unconstrained Channel Pruning. arXiv: 2307.08771.
[23]	Zheng, Z., Ji, X., Fang, T., Zhou, F., Liu, C. and Peng, G. (2024) BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-Oriented Token Batching. arXiv: 2412.03594.
[24]	Lee, S. and Nirjon, S. (2020) SubFlow: A Dynamic Induced-Subgraph Strategy toward Real-Time DNN Inference and Training. 2020 IEEE Real-Time and Embedded Technology and Applications Symposium (RTAS), Sydney, 21-24 April 2020, 15-29. [Google Scholar] [CrossRef]
[25]	Oh, H., Kim, K., Kim, J., Kim, S., Lee, J., Chang, D., et al. (2024) ExeGPT: Constraint-Aware Resource Scheduling for LLM Inference. Proceedings of the 29th ACM International Conference on Architectural Support for Programming Languages and Operating Systems, Volume 2, La Jolla, 27 April-1 May 2024, 369-384. [Google Scholar] [CrossRef]
[26]	Cui, W., Han, Z., Ouyang, L., et al. (2023) Optimizing Dynamic Neural Networks with Brainstorm. 17th USENIX Symposium on Operating Systems Design and Implementation (OSDI 23), Boston,10-12 July 2023, 797-815.
[27]	Wang, H., Zhou, X., Yu, Z., Liu, S., Guo, B., Wu, Y., et al. (2020) Context-aware Adaptation of Deep Learning Models for IoT Devices. Scientia Sinica Informationis, 50, 1629-1644. [Google Scholar] [CrossRef]
[28]	Zhao, Z., Ling, N., Guan, N. and Xing, G. (2022) Aaron: Compile-Time Kernel Adaptation for Multi-DNN Inference Acceleration on Edge GPU. Proceedings of the 20th ACM Conference on Embedded Networked Sensor Systems, Boston, 6-9 November 2022, 802-803. [Google Scholar] [CrossRef]
[29]	Pang, W., Luo, X., Chen, K., Ji, D., Qiao, L. and Yi, W. (2023) Efficient CUDA Stream Management for Multi-DNN Real-Time Inference on Embedded GPUs. Journal of Systems Architecture, 139, Article ID: 102888. [Google Scholar] [CrossRef]