云邊端協(xié)同計(jì)算與智能
隨著物聯(lián)網(wǎng)設(shè)備數(shù)量的持續(xù)攀升、傳感器應(yīng)用的日益廣泛以及生成式AI的蓬勃發(fā)展,全球數(shù)據(jù)規(guī)模正經(jīng)歷指數(shù)級(jí)擴(kuò)張。國(guó)際數(shù)據(jù)公司(IDC)預(yù)測(cè)顯示[1],至2028年全球數(shù)據(jù)總量將突破384.6 ZB,較2024年實(shí)現(xiàn)倍增。在此背景下,傳統(tǒng)云計(jì)算架構(gòu)面臨實(shí)時(shí)性不足、網(wǎng)絡(luò)時(shí)延高以及分布式數(shù)據(jù)隱私風(fēng)險(xiǎn)等多重核心挑戰(zhàn)。為應(yīng)對(duì)上述挑戰(zhàn),云邊端協(xié)同計(jì)算應(yīng)運(yùn)而生,通過網(wǎng)絡(luò)連接多個(gè)節(jié)點(diǎn)(端設(shè)備、邊緣服務(wù)器或云數(shù)據(jù)中心)協(xié)同工作,實(shí)現(xiàn)計(jì)算能力的擴(kuò)展與并行化,有效降低核心網(wǎng)帶寬壓力[2],如圖1所示。智能化技術(shù)的融入,使云邊端協(xié)同計(jì)算具備環(huán)境自適應(yīng)與協(xié)同決策能力[3]。人工智能模型被部署于從云到端的各個(gè)層級(jí),使系統(tǒng)能夠動(dòng)態(tài)感知和適應(yīng)復(fù)雜的外部環(huán)境,并進(jìn)行協(xié)同決策。更重要的是,邊緣智能激活了海量終端設(shè)備的數(shù)據(jù)價(jià)值,將其從被動(dòng)的數(shù)據(jù)采集單元,轉(zhuǎn)變?yōu)槟軌蛑鲃?dòng)感知、推理和決策的智能體,為構(gòu)建泛在智能服務(wù)奠定了堅(jiān)實(shí)基礎(chǔ)。國(guó)家層面高度重視并積極引導(dǎo)云邊端協(xié)同與邊緣智能的發(fā)展?!丁笆奈濉睌?shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》強(qiáng)調(diào)推進(jìn)云網(wǎng)協(xié)同和算網(wǎng)融合發(fā)展,打造智能算力、通用算法和開發(fā)平臺(tái)一體化的新型智能基礎(chǔ)設(shè)施[4]。工業(yè)和信息化部等六部門聯(lián)合發(fā)布的《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》提出要促進(jìn)邊緣算力協(xié)同部署,推動(dòng)“云邊端”算力泛在分布、協(xié)同發(fā)展[5]。這些政策文件共同構(gòu)成了推動(dòng)云邊端協(xié)同計(jì)算與智能發(fā)展的頂層設(shè)計(jì),為相關(guān)技術(shù)創(chuàng)新和產(chǎn)業(yè)應(yīng)用指明了方向,注入了強(qiáng)大動(dòng)力。
Figure 1. Cloud-edge-end collaborative computing architecture diagram
2. 國(guó)內(nèi)外研究現(xiàn)狀
在物聯(lián)網(wǎng)與人工智能技術(shù)的推動(dòng)下,云邊端協(xié)同架構(gòu)已成為學(xué)術(shù)界的研究前沿。當(dāng)前的研究路徑清晰地分化為兩大相輔相成的領(lǐng)域。其一為云邊端協(xié)同計(jì)算,該領(lǐng)域致力于構(gòu)建一個(gè)普適、高效、可靠的分布式計(jì)算底座,將任務(wù)與資源進(jìn)行抽象化處理,追求系統(tǒng)層面的全局最優(yōu)。其二為分布式智能,該領(lǐng)域則從AI任務(wù)的內(nèi)生需求出發(fā),研究如何設(shè)計(jì)專有的協(xié)同架構(gòu)與算法,以實(shí)現(xiàn)復(fù)雜的分布式感知、學(xué)習(xí)與決策,追求智能任務(wù)本身的效果最大化。
2.1. 云邊端協(xié)同計(jì)算:普適性計(jì)算框架的構(gòu)建與優(yōu)化
本領(lǐng)域的核心目標(biāo)是打造一個(gè)通用的分布式計(jì)算平臺(tái),它視上層應(yīng)用為待處理的抽象任務(wù),致力于解決在異構(gòu)、動(dòng)態(tài)環(huán)境下普適性的調(diào)度與管理難題。研究重點(diǎn)在于優(yōu)化系統(tǒng)級(jí)的關(guān)鍵性能指標(biāo),如時(shí)延、能耗、成本和可靠性,為所有上層應(yīng)用提供一個(gè)穩(wěn)定高效的運(yùn)行環(huán)境,如下表1。
在計(jì)算卸載與資源分配這一核心問題上,學(xué)術(shù)界已發(fā)展出較為成熟的優(yōu)化理論。傳統(tǒng)方法側(cè)重于運(yùn)籌學(xué)模型,例如,華東師范大學(xué)吳連濤團(tuán)隊(duì)[6]通過構(gòu)建多小區(qū)協(xié)作框架來最小化用戶總成本;陳英團(tuán)隊(duì)[7]則從博弈論視角切入,構(gòu)建了用戶體驗(yàn)驅(qū)動(dòng)的任務(wù)卸載模型。隨著環(huán)境動(dòng)態(tài)性的增強(qiáng),基于AI的決策方法成為主流。郝昊團(tuán)隊(duì)[8]利用深度強(qiáng)化學(xué)習(xí)(DRL)賦能邊緣節(jié)點(diǎn)進(jìn)行動(dòng)態(tài)協(xié)同決策;北京郵電大學(xué)范文浩團(tuán)隊(duì)[9]-[11]更是系統(tǒng)性地構(gòu)建了“服務(wù)放置–任務(wù)調(diào)度–資源分配”三維協(xié)同框架,通過混合DRL突破了長(zhǎng)期服務(wù)的穩(wěn)定性瓶頸。南京理工大學(xué)周俊龍團(tuán)隊(duì)[12]聚焦智能交通場(chǎng)景,提出多智能體強(qiáng)化學(xué)習(xí)模型,實(shí)現(xiàn)車路協(xié)同場(chǎng)景下任務(wù)卸載和計(jì)算資源分配的最優(yōu)決策。
在異構(gòu)與跨域協(xié)同方面,研究者致力于打破資源壁壘,實(shí)現(xiàn)更廣泛的算力共享。中南大學(xué)的王偉等人[13]提出的混合模式資源協(xié)作框架,實(shí)現(xiàn)了邊緣與云算力的彈性適配。陳星延團(tuán)隊(duì)[14]創(chuàng)新性提出面向“云–邊–端”算力系統(tǒng)的計(jì)算和傳輸聯(lián)合優(yōu)化方法,采用梯度投影法突破算力與網(wǎng)絡(luò)耦合瓶頸。電子科技大學(xué)的張林團(tuán)隊(duì)[15]與英國(guó)薩里大學(xué)Chong Huang團(tuán)隊(duì)[16]的研究則將協(xié)同的范疇從地面網(wǎng)絡(luò)拓展至“空間–空中–地面”一體化的立體網(wǎng)絡(luò),探索了該復(fù)雜場(chǎng)景下的能效與任務(wù)聯(lián)合優(yōu)化。
此外,為解決異構(gòu)環(huán)境下的部署難題,張文柱等人[17]引入Docker容器化技術(shù),為構(gòu)建通用的多接入邊緣計(jì)算環(huán)境提供了實(shí)踐方案。
Table 1. Research status of cloud-edge-end collaborative computing
表1. 云邊端協(xié)同計(jì)算研究現(xiàn)狀
2.2. 分布式智能:AI賦能下的協(xié)同感知、決策與生成
與協(xié)同計(jì)算的普適性視角不同,分布式智能領(lǐng)域的研究出發(fā)點(diǎn)是AI任務(wù)本身,如表2所示。在分布式智能中,資源調(diào)度和協(xié)同策略不再是通用目的,而是被深度定制,以服務(wù)于特定的智能目標(biāo),如最大化模型精度、加快學(xué)習(xí)收斂速度或提升推理實(shí)時(shí)性。
在分布式協(xié)同感知方面,研究旨在融合多源、多模態(tài)數(shù)據(jù)以形成超越單點(diǎn)的場(chǎng)景理解。哈爾濱工業(yè)大學(xué)崔雙雙等人[18]通過構(gòu)建多維特征張量,實(shí)現(xiàn)了云邊端跨層異構(gòu)數(shù)據(jù)的語義對(duì)齊,解決了多模態(tài)數(shù)據(jù)的融合難題。劉林峰團(tuán)隊(duì)[19]則將圖注意力機(jī)制與時(shí)空卷積網(wǎng)絡(luò)結(jié)合,這種為時(shí)空數(shù)據(jù)“定制”的融合框架,是實(shí)現(xiàn)精準(zhǔn)城市交通預(yù)測(cè)的關(guān)鍵。來自Uber和多倫多大學(xué)的Liang等人[20]探索了如何利用車對(duì)車通信來提升自動(dòng)駕駛汽車的感知和運(yùn)動(dòng)預(yù)測(cè)性能。他們通過智能整合從附近多輛車接收到的信息,能夠從不同視角觀察同一場(chǎng)景,穿透遮擋物,在觀測(cè)數(shù)據(jù)極為稀疏或根本不存在的情況下,遠(yuǎn)距離檢測(cè)目標(biāo)。
在面向AI任務(wù)的實(shí)時(shí)協(xié)同方面,協(xié)同機(jī)制的設(shè)計(jì)完全服務(wù)于AI模型的實(shí)時(shí)推理需求。例如,趙林東團(tuán)隊(duì)[21]開發(fā)的數(shù)字孿生驅(qū)動(dòng)架構(gòu),其核心是通過虛實(shí)映射機(jī)制,將工業(yè)預(yù)測(cè)性維護(hù)AI模型的決策延遲壓縮至毫秒級(jí)。華中科技大學(xué)郝義學(xué)團(tuán)隊(duì)[22]提出的輕量化實(shí)時(shí)計(jì)數(shù)框架,其采用的可微分神經(jīng)架構(gòu)搜索和視頻流動(dòng)態(tài)裁剪技術(shù),本質(zhì)上是一種AI驅(qū)動(dòng)的協(xié)同策略——系統(tǒng)根據(jù)AI模型的需求來智能決定傳輸哪些數(shù)據(jù),從而在保證計(jì)數(shù)精度的前提下極大降低帶寬消耗。同樣,北京航空航天大學(xué)曹志強(qiáng)團(tuán)隊(duì)[23]設(shè)計(jì)的自適應(yīng)判別器協(xié)作檢測(cè)系統(tǒng),其“邊篩選、云精判”的模式,是為優(yōu)化困難樣本檢測(cè)這一特定AI任務(wù)而設(shè)計(jì)的協(xié)同流程。
在分布式協(xié)同學(xué)習(xí)與生成方面,研究已進(jìn)入更復(fù)雜的協(xié)同智能階段。例如,聯(lián)邦學(xué)習(xí)(Federated Learning)是分布式智能的標(biāo)志性范式,其客戶端選擇、模型聚合等協(xié)同策略,完全是為了在保護(hù)數(shù)據(jù)隱私的前提下,高效、準(zhǔn)確地完成分布式模型訓(xùn)練這一核心智能任務(wù)。例如,由來自Google的研究人員McMahan等人提出的開創(chuàng)性工作[24],其設(shè)計(jì)的聯(lián)邦平均(FedAvg)算法奠定了該領(lǐng)域的基礎(chǔ),使得在不共享原始數(shù)據(jù)的情況下,通過聚合本地模型更新來訓(xùn)練全局模型成為可能。然而,真實(shí)場(chǎng)景中各節(jié)點(diǎn)的數(shù)據(jù)異構(gòu)性(Non-IID)會(huì)嚴(yán)重影響模型收斂,為解決這一挑戰(zhàn),Li等人提出的FedProx算法[25]通過引入近端項(xiàng)來約束本地訓(xùn)練過程,顯著提升了異構(gòu)環(huán)境下的模型穩(wěn)定性和性能。同樣,在生成式AI的浪潮下,如何通過邊云協(xié)同來運(yùn)行大型語言模型(LLM)成為前沿,研究者們探索將模型進(jìn)行切分,或通過檢索增強(qiáng)生成(RAG)讓邊云協(xié)同完成推理,這些協(xié)同方式的設(shè)計(jì)初衷均是為了實(shí)現(xiàn)高質(zhì)量的內(nèi)容生成。如基于向量數(shù)據(jù)庫(kù)的智能緩存機(jī)制VELO框架[26]。該方法在邊緣側(cè)緩存LLM的問答對(duì),并通過多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)決策智能體。當(dāng)新請(qǐng)求到達(dá)時(shí),智能體能判斷該請(qǐng)求與緩存中問題的相似度,從而決定是直接從邊緣返回“語義相似”的答案,還是向云端發(fā)起新的推理請(qǐng)求。這種將LLM視為“黑盒”并優(yōu)化其服務(wù)流程的思路,為降低LLM使用成本和延遲提供了極具實(shí)用價(jià)值的方案。
Table 2. Research status of distributed intelligence
3. 發(fā)展趨勢(shì)和展望
隨著云邊端協(xié)同計(jì)算與智能技術(shù)的深度融合,其發(fā)展將呈現(xiàn)以下核心趨勢(shì):
(1) 從資源孤島到分布式算力網(wǎng)絡(luò)
面對(duì)AI模型、數(shù)字孿生等應(yīng)用帶來的爆炸式算力需求,傳統(tǒng)的、孤立的邊、云數(shù)據(jù)中心正在向一個(gè)統(tǒng)一、協(xié)同的“算力網(wǎng)絡(luò)”演進(jìn)。其核心目標(biāo)是讓算力像電力和網(wǎng)絡(luò)一樣,成為一種可按需取用、即取即用的社會(huì)級(jí)服務(wù)。一方面,從“任務(wù)卸載”到“算力路由”,系統(tǒng)將具備全局視野,能夠?qū)崟r(shí)感知從云到端所有可用算力資源(CPU、GPU、NPU等)的狀態(tài)、成本和能耗。如同網(wǎng)絡(luò)中的路由協(xié)議,智能調(diào)度算法將為每一個(gè)計(jì)算任務(wù)動(dòng)態(tài)規(guī)劃出最優(yōu)的“算力路由”,實(shí)現(xiàn)跨地域、跨運(yùn)營(yíng)商、跨空天地的算力最優(yōu)分配。另一方面,從“應(yīng)用適配算力”到“算力主動(dòng)服務(wù)應(yīng)用”:未來的算力網(wǎng)絡(luò)將是“意圖驅(qū)動(dòng)”的。開發(fā)者只需聲明其應(yīng)用對(duì)時(shí)延、成本、精度等方面的需求,算力網(wǎng)絡(luò)便能自動(dòng)化地完成服務(wù)部署、資源配置、彈性伸縮和故障自愈的全生命周期管理,從而極大降低復(fù)雜應(yīng)用的開發(fā)和運(yùn)維門檻。
(2) 終端與邊緣成為智能創(chuàng)新的核心
AI能力下沉至邊緣,已成為應(yīng)對(duì)實(shí)時(shí)性需求與隱私保護(hù)雙重壓力的必然趨勢(shì)。例如,機(jī)器視覺作為智能制造的典型場(chǎng)景,需要上行帶寬超過50 Mbps甚至200 Mbps,端到端通信時(shí)延小于10 ms,可靠性要求大于99.9999% [27]。這一趨勢(shì)正從根本上顛覆長(zhǎng)期以來“云重邊輕”的模式,推動(dòng)終端與邊緣從被動(dòng)的“數(shù)據(jù)采集器”轉(zhuǎn)變?yōu)橹鲃?dòng)的“智能體”。這場(chǎng)變革的實(shí)現(xiàn),得益于硬件算力的突破與協(xié)同算法的創(chuàng)新。硬件層面,以華為海思Ascend310芯片為例,其能以約25 W的低功耗提供高達(dá)22TOPS的AI算力,為在邊緣部署復(fù)雜AI模型提供了堅(jiān)實(shí)的物理基礎(chǔ)[28]。算法層面,智能化的協(xié)同范式不斷涌現(xiàn),為不同AI任務(wù)在邊緣的落地提供了可行路徑。以聯(lián)邦學(xué)習(xí)為代表的技術(shù)使邊緣節(jié)點(diǎn)群能在不共享原始數(shù)據(jù)的前提下,協(xié)同訓(xùn)練強(qiáng)大的全局模型,并可進(jìn)一步演化為最適應(yīng)本地需求的個(gè)性化模型,實(shí)現(xiàn)“群體智能”與“個(gè)體智能”的共生。對(duì)于生成式AI,業(yè)界正積極探索“小模型在邊緣、大模型在云端”的高效協(xié)同模式。其核心是利用邊緣側(cè)的輕量化模型和智能語義緩存處理海量高頻請(qǐng)求,僅在需要深度創(chuàng)作或復(fù)雜推理時(shí)才調(diào)用云端大模型,從而在保證服務(wù)質(zhì)量的同時(shí)大幅降低AIGC的應(yīng)用成本,為其在各行業(yè)的普及鋪平道路。
(3) 綠色計(jì)算成為協(xié)同架構(gòu)的內(nèi)生目標(biāo)
隨著全球數(shù)據(jù)總量和計(jì)算需求的激增,數(shù)據(jù)中心和通信網(wǎng)絡(luò)的能耗問題日益凸出,全球數(shù)據(jù)中心年耗電量已達(dá)1000 TWh [27] [29]。云邊端協(xié)同架構(gòu)通過將計(jì)算推向數(shù)據(jù)源頭,天然具備了節(jié)能潛力。未來,“綠色計(jì)算”將從一個(gè)附加選項(xiàng),變?yōu)閰f(xié)同架構(gòu)設(shè)計(jì)與調(diào)度的核心約束和優(yōu)化目標(biāo)。綠色化路徑呈現(xiàn)出從宏觀能源供給到微觀芯片設(shè)計(jì),再到系統(tǒng)級(jí)智能調(diào)度的多層次、立體化特征:一是供電模式的綠色革新,例如騰訊云正大規(guī)模開發(fā)建設(shè)數(shù)據(jù)中心分布式新能源項(xiàng)目,預(yù)計(jì)2030年實(shí)現(xiàn)100%綠色電力,自身運(yùn)營(yíng)及供應(yīng)鏈的全面碳中和[30];二是硬件能效提升,從追求性能到專注“算力功耗比”。例如,3D堆疊、存算一體、新型半導(dǎo)體材料以及專用計(jì)算架構(gòu)等技術(shù)在加速發(fā)展,其共同目標(biāo)是在有限的功耗預(yù)算內(nèi),為邊緣設(shè)備提供出最大的有效算力。三是架構(gòu)與算法的協(xié)同節(jié)能,將計(jì)算推向數(shù)據(jù)源頭,最大限度減少非必要的數(shù)據(jù)傳輸。架構(gòu)級(jí)節(jié)能通過在邊緣側(cè)完成數(shù)據(jù)預(yù)處理、清洗和特征提取,僅將高價(jià)值、小體積的結(jié)果數(shù)據(jù)上傳至云端,從物理上減少了廣域網(wǎng)的流量和能耗。算法級(jí)節(jié)能中輕量化的模型壓縮與量化技術(shù),則直接降低了在資源受限的邊緣設(shè)備上運(yùn)行算法所需的計(jì)算能耗。這種從傳輸“原始數(shù)據(jù)”到傳輸“有效知識(shí)”的轉(zhuǎn)變,是實(shí)現(xiàn)全鏈路綠色化的關(guān)鍵。
(4) 安全與隱私保護(hù)加強(qiáng)
云邊端協(xié)同在帶來靈活性和高效性的同時(shí),也因其開放和分布式的特性,引入了更復(fù)雜的安全挑戰(zhàn),據(jù)統(tǒng)計(jì)2024年物聯(lián)網(wǎng)惡意軟件攻擊增長(zhǎng)了45%,其中路由器是攻擊目標(biāo)最多的設(shè)備類型,超過66%的攻擊針對(duì)這些設(shè)備[31]。安全能力必須“內(nèi)生”于協(xié)同體系的每一環(huán),并構(gòu)建于零信任架構(gòu)與隱私計(jì)算范式兩大基石之上。首先是遵循“永不信任,永遠(yuǎn)驗(yàn)證”原則的零信任架構(gòu):在傳輸層,國(guó)密SM9等高性能加密算法[32]可為5G邊緣網(wǎng)絡(luò)提供高速安全信道;在計(jì)算層,基于可信執(zhí)行環(huán)境的安全節(jié)點(diǎn)(如螞蟻鏈“摩斯”)能實(shí)現(xiàn)高效的機(jī)密計(jì)算與聯(lián)邦學(xué)習(xí);在存儲(chǔ)層,“分片加密–邊緣存儲(chǔ)–云端審計(jì)”等機(jī)制,通過將數(shù)據(jù)分散加密存儲(chǔ),能有效防范因單點(diǎn)故障或攻擊導(dǎo)致的數(shù)據(jù)泄露與篡改風(fēng)險(xiǎn)。其次是隱私計(jì)算范式的普及深化。以聯(lián)邦學(xué)習(xí)為代表的“數(shù)據(jù)不動(dòng)模型動(dòng)”技術(shù)正成為處理敏感數(shù)據(jù)的標(biāo)準(zhǔn)范式,從源頭保障用戶隱私。在此基礎(chǔ)上,業(yè)界正積極探索效率更高的多方安全計(jì)算、同態(tài)加密等前沿技術(shù),以適應(yīng)更廣泛的協(xié)同計(jì)算場(chǎng)景。





