日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁 > 嵌入式 > 《嵌入式技術(shù)與智能系統(tǒng)》
[導(dǎo)讀]在大數(shù)據(jù)與深度學(xué)習(xí)浪潮的推動(dòng)下,數(shù)據(jù)驅(qū)動(dòng)模型已全面取代傳統(tǒng)規(guī)則式算法,成為提升圖像分辨率的核心引擎。本文綜述了數(shù)據(jù)驅(qū)動(dòng)模型在圖像分辨率提升方面的應(yīng)用,涵蓋了三維重建、壓縮感知、單像素成像和超分辨率技術(shù),并進(jìn)一步探討數(shù)據(jù)驅(qū)動(dòng)模型在視覺成像、工業(yè)無損評(píng)估和醫(yī)學(xué)影像處理等實(shí)際場(chǎng)景中的落地實(shí)踐,以及未來的發(fā)展趨勢(shì)。


1. 引言

隨著大數(shù)據(jù)和人工智能時(shí)代的到來,視覺數(shù)據(jù)處理技術(shù)經(jīng)歷了從基于規(guī)則到數(shù)據(jù)驅(qū)動(dòng)的范式轉(zhuǎn)變,為工業(yè)自動(dòng)化、醫(yī)學(xué)診斷等多個(gè)領(lǐng)域帶來了革新。傳統(tǒng)的分析方法依賴于手工特征和統(tǒng)計(jì)模型,在泛化能力、適應(yīng)復(fù)雜數(shù)據(jù)分布以及真實(shí)世界成像條件下的魯棒性方面存在局限性。而機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí)的興起,使得模型能夠從海量數(shù)據(jù)集中自主學(xué)習(xí)層次化特征,實(shí)現(xiàn)了在復(fù)雜視覺分析任務(wù)中前所未有的準(zhǔn)確性和魯棒性。

數(shù)據(jù)驅(qū)動(dòng)模型的廣泛應(yīng)用與計(jì)算硬件的進(jìn)步、算法創(chuàng)新以及大規(guī)模標(biāo)注數(shù)據(jù)集的可用性密切相關(guān)。早期機(jī)器學(xué)習(xí)模型如支持向量機(jī)和決策樹展示了利用數(shù)據(jù)進(jìn)行模式識(shí)別的潛力,但其淺層架構(gòu)難以捕捉高維圖像數(shù)據(jù)中的復(fù)雜空間和語義關(guān)系。卷積神經(jīng)網(wǎng)絡(luò)的興起,通過卷積層、池化操作和非線性激活引入了層次化特征提取,開創(chuàng)性的工作如AlexNet和ResNet展示了CNN在圖像分類中超越人類水平性能的能力,為其在目標(biāo)檢測(cè)、分割等領(lǐng)域的主導(dǎo)地位鋪平了道路。

近年來,Transformer架構(gòu)的出現(xiàn)進(jìn)一步顛覆了計(jì)算機(jī)視覺領(lǐng)域,其自注意力機(jī)制在建模圖像中的長(zhǎng)距離依賴和全局上下文方面表現(xiàn)出色,解決了CNN的局部性限制。視覺Transformer (ViT)和檢測(cè)Transformer (DETR)在需要整體理解的圖像描述和全景分割等任務(wù)中取得了最先進(jìn)的結(jié)果。與此同時(shí),生成模型如去噪擴(kuò)散概率模型(DDPM)的出現(xiàn),通過模擬擴(kuò)散過程為圖像重建提供了新的框架。

盡管取得了這些進(jìn)展,但仍存在重大挑戰(zhàn)。首先,退化建模不足,真實(shí)場(chǎng)景中的噪聲、模糊類型遠(yuǎn)比合成訓(xùn)練數(shù)據(jù)復(fù)雜,導(dǎo)致模型在實(shí)際應(yīng)用中表現(xiàn)失準(zhǔn);其次,計(jì)算成本高昂,高參數(shù)量的Transformer等架構(gòu)對(duì)顯存與推理時(shí)間要求極高,難以在邊緣設(shè)備或?qū)崟r(shí)系統(tǒng)中部署;第三,多模態(tài)融合薄弱,RGB、深度、紅外等互補(bǔ)信息尚未被有效協(xié)同利用,限制了分辨率提升的上限;最后,評(píng)價(jià)指標(biāo)失準(zhǔn),傳統(tǒng)PSNR/SSIM常與主觀視覺質(zhì)量脫節(jié),難以真實(shí)反映人眼對(duì)細(xì)節(jié)、紋理及整體清晰度的感知偏好。

本文聚焦圖像分辨率提升的數(shù)據(jù)驅(qū)動(dòng)模型,涵蓋從基礎(chǔ)技術(shù)到最新創(chuàng)新,系統(tǒng)綜述三維重建、壓縮感知、單像素成像及超分辨率技術(shù)。通過研究它們?cè)谝曈X檢測(cè)、工業(yè)無損檢測(cè)(NDT)和醫(yī)學(xué)成像中的應(yīng)用,我們突出了這些模型的變革潛力和未解決的挑戰(zhàn)。

本工作的貢獻(xiàn)有三個(gè)方面:

1. 技術(shù)綜合:統(tǒng)一傳統(tǒng)方法(壓縮感知/字典學(xué)習(xí))與深度學(xué)習(xí)(CNN/Transformer/DDPM)的分辨率提升框架。

2. 退化–重建關(guān)聯(lián)分析:揭示采樣策略(如單像素成像)、退化模型與重建質(zhì)量的耦合機(jī)制。

3. 應(yīng)用場(chǎng)景適配:結(jié)合工業(yè)微缺陷檢測(cè)、醫(yī)學(xué)低劑量成像等需求提出優(yōu)化路徑,為研究人員和從業(yè)者提供了可操作的見解。

本文的其余部分安排如下:第2節(jié)專注于圖像分辨率增強(qiáng),包括三維重建、壓縮感知和超分辨率。第4節(jié)討論跨行業(yè)的應(yīng)用,在第5節(jié)和第6節(jié)分別進(jìn)行比較分析和未來趨勢(shì)的探討。通過這種結(jié)構(gòu),我們旨在為讀者提供數(shù)據(jù)驅(qū)動(dòng)視覺處理在圖像分辨率提升方面的全面理解,促進(jìn)理論和應(yīng)用領(lǐng)域的創(chuàng)新。

2. 圖像分辨率增強(qiáng)

2.1. 三維重建技術(shù)

三維重建技術(shù)通過結(jié)合圖像采集、特征提取、匹配和模型優(yōu)化等步驟,從二維圖像中恢復(fù)三維場(chǎng)景結(jié)構(gòu),增強(qiáng)圖像的立體感和細(xì)節(jié)。隨著技術(shù)進(jìn)步,該技術(shù)已發(fā)展到利用深度學(xué)習(xí)進(jìn)行高效準(zhǔn)確的重建,并在文化遺產(chǎn)保護(hù)、娛樂、醫(yī)療、機(jī)器人導(dǎo)航、工業(yè)設(shè)計(jì)和虛擬現(xiàn)實(shí)等多個(gè)領(lǐng)域得到應(yīng)用。它分為基于傳統(tǒng)多視圖幾何和基于深度學(xué)習(xí)的算法,正朝著深度學(xué)習(xí)、多模態(tài)融合、實(shí)時(shí)重建和交互式模型等方向進(jìn)步?;趫D像的三維重建技術(shù)可以分為基于傳統(tǒng)多視圖幾何的三維重建算法和基于深度學(xué)習(xí)的三維重建算法。

2.1.1. 基于傳統(tǒng)多視圖幾何的三維重建算法

立體視覺技術(shù)通過分析多視角圖像獲取深度信息以重建三維模型,分為依賴自然特征的被動(dòng)方法和通過投射已知模式測(cè)量距離的主動(dòng)方法。傳統(tǒng)三維重建算法如結(jié)構(gòu)光重建(SFM)和多視角立體(MVS),通過圖像配準(zhǔn)、視差計(jì)算和特征匹配恢復(fù)三維結(jié)構(gòu),但受光照條件影響且精度有限。

從2013年到2021年,研究者們提出了多種SFM算法,如全局SFM [1]、在線服務(wù)平臺(tái)[2]、COLMAP增量SFM [3]、HSFM [4]以及基于增量SFM的單目三維重建方法[5],這些技術(shù)提高了大規(guī)模三維重建的魯棒性、精度和可擴(kuò)展性。

SFM通過特征點(diǎn)匹配獲取相機(jī)參數(shù),但產(chǎn)生稀疏點(diǎn)云。提供更詳盡的三維信息,其中稠密點(diǎn)云重建MVS基本流程圖見圖1。MVS則通過像素級(jí)匹配生成更密集的點(diǎn)云,提供更詳盡的三維信息。MVS自2006年以來也經(jīng)歷了重要發(fā)展,Seitz等人的對(duì)MVS算法的系統(tǒng)性介紹[6]、Sinha等人的基于體素的MVS方法[7],以及Lin等人結(jié)合雙目立體視覺和特征匹配的三維重建方法[8],推動(dòng)了MVS領(lǐng)域的發(fā)展。

傳統(tǒng)多視圖幾何三維重建依賴相機(jī)采集,精度不及激光點(diǎn)云。相機(jī)類型影響結(jié)果:彩色相機(jī)提供顏色信息但受光照影響;紅外相機(jī)不受光照影響,但無法捕獲顏色,實(shí)際應(yīng)用時(shí)需權(quán)衡這些因素。

2.1.2. 基于深度學(xué)習(xí)的三維重建算法

傳統(tǒng)的三維重建技術(shù),如SFM和MVS,依賴亮度一致性,在理想環(huán)境下效果良好,但在紋理弱或高反射環(huán)境下易出現(xiàn)不準(zhǔn)確或空洞。深度學(xué)習(xí)方法通過編碼解碼過程,無需復(fù)雜校準(zhǔn),有效改善了這些問題。

2021年,研究者們提出了基于深度神經(jīng)網(wǎng)絡(luò)的三維重建技術(shù)[9]-[11],通過無監(jiān)督學(xué)習(xí)、深度特征測(cè)量和增量SFM結(jié)構(gòu)的深度融合,提高了三維重建的準(zhǔn)確性和魯棒性。

自2014年Eigen等人[12]首次將CNN應(yīng)用于三維重建以來,深度學(xué)習(xí)在三維重建領(lǐng)域取得了顯著進(jìn)展,如2015年的多任務(wù)CNN [13]、2017年的Pix2Face [14]和后續(xù)的MVSNet系列[15]-[20],這些技術(shù)通過引入先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu),顯著提升了三維重建的精度和效率。

NeRF技術(shù)的出現(xiàn)推動(dòng)了三維場(chǎng)景隱式表示的發(fā)展,從2020年的全連接神經(jīng)網(wǎng)絡(luò)到2023年的高分辨率數(shù)據(jù)訓(xùn)練[21]-[24],NeRF不斷優(yōu)化,提升了重建質(zhì)量和細(xì)節(jié)。同時(shí),Stucker和Schindler [25]、Peng等人[26]的技術(shù)展示了深度學(xué)習(xí)在動(dòng)態(tài)場(chǎng)景合成和多視角重建中的應(yīng)用,而Huang等人[27]的方法則通過二維卷積網(wǎng)絡(luò)與三維神經(jīng)網(wǎng)絡(luò)輻射場(chǎng)的交互學(xué)習(xí),為三維場(chǎng)景重建帶來了高質(zhì)量的風(fēng)格化效果。這些研究證明了深度學(xué)習(xí)在解決傳統(tǒng)三維重建挑戰(zhàn),如表面空洞問題方面的潛力。

基于數(shù)據(jù)驅(qū)動(dòng)的圖像分辨率提升理論和技術(shù)綜述

Figure 1. Basic flow chart of MVS reconstruction from dense point clouds

1. 稠密點(diǎn)云重建MVS基本流程圖

2.1.3. 基于學(xué)習(xí)的點(diǎn)云稠密化方法

隨著深度學(xué)習(xí)的發(fā)展,研究者提出了一系列端到端的網(wǎng)絡(luò),可直接由稀疏點(diǎn)云輸出高密度表示,無需顯式三維重建。2018年的PU-Net [28]率先用特征提取與多層感知器逐層生成新點(diǎn);其后續(xù)PU-GAN [29]、Dis-PU [30]等進(jìn)一步引入生成對(duì)抗網(wǎng)絡(luò)與幾何約束,提升點(diǎn)的均勻性與幾何一致性。另一類工作利用NeRF變體[31]等隱式神經(jīng)表示,把點(diǎn)云編碼為連續(xù)隱式場(chǎng),讓網(wǎng)絡(luò)預(yù)測(cè)任意位置的幾何概率,實(shí)現(xiàn)任意分辨率稠密化。為了補(bǔ)全缺失細(xì)節(jié),多模態(tài)方法融合 RGB、深度或法向信息,通過跨模態(tài)注意力機(jī)制聯(lián)合圖像紋理與點(diǎn)云幾何,實(shí)現(xiàn)高保真增強(qiáng)[32]。針對(duì)標(biāo)注數(shù)據(jù)稀缺的現(xiàn)實(shí),最新研究還探索了基于重建一致性、幾何不變性的自監(jiān)督或無監(jiān)督生成模型,顯著提高了算法在真實(shí)場(chǎng)景中的適應(yīng)性[33]。

2.2. 壓縮感知

壓縮感知(Compressive Sensing,簡(jiǎn)稱CS)是一種信號(hào)處理理論,其基本流程圖見圖2,它提出了一種革命性的采樣方法,允許從遠(yuǎn)低于奈奎斯特率的測(cè)量值中恢復(fù)稀疏或可壓縮信號(hào)。這一理論的核心在于,如果一個(gè)信號(hào)在某種域(如時(shí)間域、空間域或頻率域)中是稀疏的,那么它可以通過遠(yuǎn)少于傳統(tǒng)采樣定理要求的樣本數(shù)來重建。

在圖像感知與壓縮領(lǐng)域,壓縮感知的概念尤其具有吸引力。圖像和視頻信號(hào)通常具有內(nèi)在的冗余性,這意味著它們?cè)谧儞Q域(如小波變換或傅立葉變換)中只有少數(shù)幾個(gè)系數(shù)是顯著的,而其他許多系數(shù)接近于零。利用這一特性,壓縮感知技術(shù)可以在保持圖像質(zhì)量的同時(shí),大幅度減少需要存儲(chǔ)或傳輸?shù)臄?shù)據(jù)量。例如,Yoshida等[34]探索了將人類視覺感知引入圖像壓縮感知問題的可能性,通過將視覺顯著性與幾何特征相結(jié)合,構(gòu)建視覺啟發(fā)的“重要性圖”,指導(dǎo)壓縮采樣過程,并結(jié)合深度圖像先驗(yàn)(DIP)與嵌入空間流形建模(MMES)在解碼端重建圖像。實(shí)驗(yàn)結(jié)果表明,該方法在極低采樣率下仍能保留關(guān)鍵的視覺特征,顯著優(yōu)于傳統(tǒng)的隨機(jī)或均勻采樣策略,為壓縮感知領(lǐng)域帶來了新的感知驅(qū)動(dòng)思路。


基于數(shù)據(jù)驅(qū)動(dòng)的圖像分辨率提升理論和技術(shù)綜述

Figure 2. Basic flow chart of compressed sensing

2. 壓縮感知基本流程圖

2.2.1. 壓縮感知框架

壓縮感知框架是壓縮感知技術(shù)的核心,它定義了如何從少量測(cè)量值中重建原始信號(hào)。壓縮感知框架的核心思想是利用信號(hào)的稀疏性或可壓縮性來減少數(shù)據(jù)采集量,從而實(shí)現(xiàn)高效的數(shù)據(jù)采集和重建。它突破了奈奎斯特采樣定理的限制,允許在遠(yuǎn)低于信號(hào)帶寬的速率下進(jìn)行采樣,并通過算法重建出高質(zhì)量的信號(hào)。He等[35]提出擴(kuò)散自適應(yīng)框架,通過將測(cè)量矩陣分布式存儲(chǔ)于網(wǎng)絡(luò)節(jié)點(diǎn)并引入擴(kuò)散l0-LMS與mini-batch擴(kuò)散算法,實(shí)現(xiàn)了稀疏信號(hào)的協(xié)同快速重建,在收斂速度與重建精度上均優(yōu)于單機(jī)l0-LMS。Oikonomou等[36]提出的一種基于變分貝葉斯框架的新型壓縮感知算法,實(shí)驗(yàn)表明該方法在多種場(chǎng)景下均優(yōu)于現(xiàn)有主流算法。這些框架的成功應(yīng)用,證明了壓縮感知在圖像重建和壓縮方面的巨大潛力。

2.2.2. 字典學(xué)習(xí)

字典學(xué)習(xí)是壓縮感知中一個(gè)重要的技術(shù),它通過學(xué)習(xí)信號(hào)的稀疏表示,從而實(shí)現(xiàn)高效的壓縮和重建。字典學(xué)習(xí)的目標(biāo)是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出一組基函數(shù),使得每個(gè)信號(hào)都可以表示為這些基函數(shù)的線性組合,并且組合系數(shù)盡可能稀疏。稀疏性意味著只有少數(shù)幾個(gè)系數(shù)是非零的,這有助于降低數(shù)據(jù)的存儲(chǔ)和傳輸成本。S Li等[37]提出基于稀疏編碼的雙字典超分辨率框架,通過Gabor濾波提取多尺度特征并引入殘差字典補(bǔ)償高頻細(xì)節(jié),顯著提升了微銑刀具磨損圖像的分辨率與監(jiān)測(cè)精度。

2.2.3. 算法

壓縮感知算法是信號(hào)重建的關(guān)鍵,它決定了重建的精度和效率。例如,Beck等[38]提出了一種快速迭代收縮閾值算法(FISTA),并將其應(yīng)用于圖像去模糊問題,取得了顯著的性能提升,驗(yàn)證了FISTA在圖像檢測(cè)與壓縮感知領(lǐng)域應(yīng)用的有效性。Li等[39]提出了一種基于總變分正則化的高效算法TVAL3,并將其應(yīng)用于單像素相機(jī)圖像重建,顯著提高了圖像檢測(cè)與壓縮感知的性能,驗(yàn)證了TVAL3在圖像恢復(fù)方面的有效性。表1為FISTA與TVAL3的相關(guān)比較。

Table 1. Relevant comparison between FISTA and TVAL3

基于數(shù)據(jù)驅(qū)動(dòng)的圖像分辨率提升理論和技術(shù)綜述

2.3. 不同圖像的稀疏性

在圖像處理和計(jì)算機(jī)視覺領(lǐng)域,稀疏性(Sparsity)是一個(gè)重要的概念,它指的是在表示圖像時(shí),圖像的某些屬性或特征在某種域中只有少數(shù)幾個(gè)非零元素,這些非零元素可以捕捉到圖像的主要信息。圖像的稀疏性是自然存在的,許多類型的圖像實(shí)際上在諸如小波變換、傅立葉變換或DCT (離散余弦變換)等正交變換下呈現(xiàn)高度稀疏。通過尋找最合適的稀疏表示,我們能夠捕捉到圖像的關(guān)鍵特征,同時(shí)減少冗余信息,這對(duì)于圖像編碼、壓縮、分類和重建等方面都有積極影響,圖像的稀疏表示方法分為以下幾類。

2.3.1. 貪婪策略近似

貪婪策略近似方法通過迭代選擇字典中與圖像殘差最匹配的原子,并利用最小二乘法計(jì)算原子系數(shù),以近似求解稀疏表示問題。匹配pursuit (MP)算法和正交匹配pursuit (OMP)算法是最典型的貪婪策略近似方法,它們通過選擇最佳匹配原子來逐步逼近圖像的稀疏表示例如,Shengqin Bian和Lixin Zhang [40]比較了匹配追蹤算法在圖像重建中的應(yīng)用性能,結(jié)果表明,在無噪聲信號(hào)重建中,子空間追蹤算法表現(xiàn)略優(yōu)于其他算法;在二維圖像重建中,當(dāng)壓縮比低時(shí),子空間追蹤算法也表現(xiàn)更佳。此外,還有許多改進(jìn)的貪婪算法,如ROMP、CoSaMP、StOMP、SP、SAMP、TMP、TBOMP、FBP等,它們?cè)谛?、魯棒性和收斂速度等方面進(jìn)行了優(yōu)化。Rajaei Khatib等[41]提出了一種名為學(xué)習(xí)貪婪方法(LGM)的新型神經(jīng)網(wǎng)絡(luò)架構(gòu),用于稀疏編碼和圖像檢測(cè),該架構(gòu)能夠有效地學(xué)習(xí)圖像的特征表示,并取得了優(yōu)于傳統(tǒng)方法的性能。

2.3.2. 約束優(yōu)化策略

約束優(yōu)化策略將稀疏表示問題轉(zhuǎn)化為約束優(yōu)化問題,并利用高效的優(yōu)化方法求解。梯度投影稀疏重建(GPSR)算法將原始的無約束非光滑問題轉(zhuǎn)化為一個(gè)光滑的可微約束優(yōu)化問題,利用梯度下降和標(biāo)準(zhǔn)線搜索方法求解L1正則化問題,Li等[42]將其與Krylov子空間投影相結(jié)合,應(yīng)用于三維電阻層析成像(ERT),在保持高精度圖像重建的同時(shí)顯著降低了計(jì)算耗時(shí),驗(yàn)證了KGPSR-BB在實(shí)時(shí)稀疏正則化與工業(yè)過程成像中的有效性。基于內(nèi)點(diǎn)法的稀疏表示策略,如TNIPM算法將L1范數(shù)最小化問題轉(zhuǎn)化為一個(gè)無約束光滑問題,利用截?cái)嗯nD法和內(nèi)點(diǎn)法求解L1正則化問題,適用于大規(guī)模稀疏表示問題。交替方向法(ADM)算法可以有效地求解L1正則化問題的對(duì)偶問題,進(jìn)一步提高算法的效率。Yan Yang等[43]提出了一種基于交替方向乘子法(ADMM)的深度學(xué)習(xí)架構(gòu),并將其應(yīng)用于圖像壓縮感知,取得了優(yōu)于傳統(tǒng)方法和深度學(xué)習(xí)方法的效果,驗(yàn)證了深度學(xué)習(xí)在圖像檢測(cè)與稀疏表示方面的有效性。

2.3.3. 基于近端算法的優(yōu)化策略

基于近端算法的優(yōu)化策略利用近端算子迭代求解稀疏表示問題,如ISTA、FISTA、SpaRSA、ALM等。這些算法將L1正則化問題轉(zhuǎn)化為L(zhǎng)2最小化問題,并利用收縮算子或投影算子進(jìn)行迭代求解。例如,ISTA算法利用收縮算子迭代求解L1正則化問題,具有較高的收斂速度和計(jì)算效率。FISTA算法是ISTA算法的改進(jìn),利用Lipschitz常數(shù)近似Hessian矩陣,并加速收斂,Li等[44]將其與單頻全息成像結(jié)合,提出SFH-FISTA實(shí)現(xiàn)3D稀疏毫米波成像,實(shí)驗(yàn)顯示在50%采樣率下仍高質(zhì)重建,驗(yàn)證了FISTA在雷達(dá)稀疏成像中的高效與穩(wěn)健。SpaRSA算法利用自適應(yīng)連續(xù)和BB奇異值方法優(yōu)化L1正則化問題,在圖像壓縮領(lǐng)域展現(xiàn)出高效性、靈活性、穩(wěn)定性和快速收斂的優(yōu)勢(shì),使其在處理大規(guī)模稀疏信號(hào)恢復(fù)問題時(shí)表現(xiàn)出色,尤其適用于不同類型的圖像數(shù)據(jù)。ISTA、FISTA、SpaRSA與ALM的相關(guān)比較見表2。

2.3.4. 基于同倫算法的稀疏表示

基于同倫算法的稀疏表示方法利用同倫算法追蹤L1正則化問題中參數(shù)λ的變化路徑,逐步更新稀疏解。例如,LASSO (最小絕對(duì)收縮和選擇算子)同倫算法和BPDN (基追蹤去噪)同倫算法分別追蹤LASSO和BPDN問題中參數(shù)λ的變化路徑,逐步更新稀疏解,LASSO更多地被統(tǒng)計(jì)學(xué)界使用,而BPDN則更多地被信號(hào)處理界采用。在實(shí)際應(yīng)用中,當(dāng)觀測(cè)數(shù)據(jù)可能包含噪聲時(shí),這兩種方法都需要進(jìn)行適當(dāng)?shù)卣{(diào)整以處理噪聲問題。此外,還有基于同倫的迭代重新加權(quán)L1最小化算法,它利用同倫算法更新L1正則化問題的權(quán)重,進(jìn)一步提高算法的效率,Sining Huang等[45]提出了一種基于擴(kuò)展重加權(quán)?1最小化算法(ERMA)的圖像恢復(fù)方法,有效提高了圖像恢復(fù)的信號(hào)噪聲比(SNR)、結(jié)構(gòu)相似性(SSIM)和均方誤差(MSE),并通過仿真實(shí)驗(yàn)驗(yàn)證了其在圖像檢測(cè)和稀疏表示方面的優(yōu)越性。

Table 2. Related comparison of ISTA, FISTA, SpaRSA, and ALM

基于數(shù)據(jù)驅(qū)動(dòng)的圖像分辨率提升理論和技術(shù)綜述2.4. 單像素成像

單像素成像(Single-Pixel Imaging, SPI)是一種顛覆傳統(tǒng)的成像技術(shù),它不依賴于成像設(shè)備上每個(gè)像素點(diǎn)的獨(dú)立探測(cè),而是利用單個(gè)像素探測(cè)器來捕獲整個(gè)場(chǎng)景的圖像信息。這種技術(shù)的核心在于,通過空間光調(diào)制器(Spatial Light Modulator, SLM)或者類似的設(shè)備對(duì)照明光束進(jìn)行調(diào)制,產(chǎn)生一系列具有特定模式的照明圖案,這些圖案依次投射到目標(biāo)物體上[46]。SPI技術(shù)的發(fā)展,特別是在運(yùn)動(dòng)目標(biāo)成像、盲重建、圖像加密和隱藏以及照明圖案優(yōu)化等領(lǐng)域,為我們提供了新的視角和方法。

2.4.1. 運(yùn)動(dòng)物體成像

在運(yùn)動(dòng)物體成像領(lǐng)域,單像素成像(SPI)技術(shù)因其獨(dú)特的成像機(jī)制而展現(xiàn)出巨大潛力,同時(shí)也面臨著一系列挑戰(zhàn)。其中最主要的挑戰(zhàn)之一是如何在保持圖像質(zhì)量的同時(shí)提高成像速度。這是因?yàn)镾PI技術(shù)在獲取圖像時(shí)通常需要進(jìn)行多次的照明圖案投射和相應(yīng)的信號(hào)采集,這個(gè)過程在面對(duì)快速移動(dòng)的物體時(shí)會(huì)變得尤為困難。Monin等[47]提出一種基于循環(huán)采樣矩陣與多幀運(yùn)動(dòng)估計(jì)的單像素成像算法,通過直接在投影域檢測(cè)并補(bǔ)償全局或局部運(yùn)動(dòng),在目標(biāo)運(yùn)動(dòng)過程中仍能實(shí)現(xiàn)高保真重建,為動(dòng)態(tài)場(chǎng)景下的單像素成像提供了實(shí)時(shí)、穩(wěn)健的解決方案。

2.4.2. 盲重建

盲重建(Blind Reconstruction)是一個(gè)在信號(hào)處理和圖像分析領(lǐng)域常見的概念,它指的是在不知道原始信號(hào)或圖像具體參數(shù)或特性的情況下,僅通過觀測(cè)到的數(shù)據(jù)來恢復(fù)原始信號(hào)或圖像的過程。在盲重建領(lǐng)域,Zhuang等[48]提出了一種結(jié)合深度圖像先驗(yàn)(DIP)和結(jié)構(gòu)化深度神經(jīng)網(wǎng)絡(luò)的方法,用于解決盲圖像去模糊(BID)問題,并在未知核大小和顯著噪聲的情況下表現(xiàn)出穩(wěn)定性,驗(yàn)證了該方法在提高圖像去模糊效果方面的有效性。Song等[49]提出了一種基于粉噪聲散斑與深度學(xué)習(xí)的計(jì)算鬼成像框架,在無需實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)的情況下即可從0.8% Nyquist采樣率中重建出高保真圖像,并在未知系統(tǒng)響應(yīng)與強(qiáng)噪聲條件下實(shí)現(xiàn)魯棒盲重建,驗(yàn)證了該方法在極低采樣與復(fù)雜環(huán)境下的有效性。

2.4.3. 圖像加密和隱藏

SPI技術(shù)在圖像加密和隱藏方面利用其獨(dú)特的成像機(jī)制提供了新的安全策略,它通過隨機(jī)相位掩模對(duì)圖像進(jìn)行編碼,生成難以識(shí)別的噪聲狀圖案,從而保護(hù)圖像內(nèi)容不被未授權(quán)訪問。此外,SPI技術(shù)結(jié)合混沌理論可以生成高度隨機(jī)的編碼模式,進(jìn)一步增強(qiáng)圖像的安全性。Zhang等[50]提出了一種基于混沌棕櫚相位掩模(CPPM)和菲涅耳變換(FrT)的光學(xué)單通道彩色圖像加密方案,并將其應(yīng)用于光學(xué)信息安全領(lǐng)域,取得了顯著的安全性提升,驗(yàn)證了該方案在提取光學(xué)圖像隱藏信息方面的有效性,這為SPI在圖像加密領(lǐng)域提供了新的視角。

2.5. 人工智能超分辨率及其局限性

超分辨率技術(shù)(Super-Resolution,簡(jiǎn)稱SR)是一種旨在提高圖像或視頻分辨率的技術(shù)。傳統(tǒng)的圖像放大方法往往會(huì)導(dǎo)致圖像模糊和失真,而超分辨率技術(shù)則通過算法重建圖像的細(xì)節(jié),生成比原始圖像更清晰、分辨率更高的圖像,同時(shí)保留原始內(nèi)容和結(jié)構(gòu),Liu等[51]提出了一種基于Cycle-GAN的超編碼分辨率重建方法,通過無配對(duì)訓(xùn)練策略在遠(yuǎn)低于奈奎斯特采樣條件下實(shí)現(xiàn)2×超分辨成像,實(shí)驗(yàn)驗(yàn)證其在3.125%~25%采樣率下顯著提升圖像細(xì)節(jié)與邊緣銳度,為低數(shù)據(jù)量、高保真超分辨率成像提供了新途徑。超分辨率技術(shù)與人工智能結(jié)合的關(guān)鍵優(yōu)勢(shì)在于其能夠從大量的數(shù)據(jù)中學(xué)習(xí)到復(fù)雜的特征,并利用這些特征來增強(qiáng)圖像的細(xì)節(jié)和質(zhì)量。這種結(jié)合不僅提高了圖像的質(zhì)量,還擴(kuò)展了超分辨率技術(shù)在多個(gè)領(lǐng)域的應(yīng)用范圍,為圖像處理領(lǐng)域帶來了新的可能性。

2.5.1. 單一圖像超分辨率

單一圖像超分辨率(SISR)技術(shù)是一種圖像增強(qiáng)方法,它旨在從單個(gè)低分辨率圖像中恢復(fù)出高分辨率圖像。SISR的挑戰(zhàn)在于,由于成像系統(tǒng)的局限性或數(shù)據(jù)獲取過程中的約束,低分辨率圖像丟失了高頻細(xì)節(jié)信息。為了克服這些限制,SISR通常采用先進(jìn)的算法,如基于學(xué)習(xí)的方法,特別是深度學(xué)習(xí)技術(shù)。Liang等[52]提出了一種基于Swin Transformer的端到端圖像復(fù)原框架SwinIR,通過局部–全局混合注意力機(jī)制直接學(xué)習(xí)從低分辨率到高分辨率的映射,在多個(gè)超分辨率任務(wù)及退化場(chǎng)景下均顯著優(yōu)于現(xiàn)有CNN方法,驗(yàn)證了Transformer (結(jié)構(gòu)示意圖見圖3)在單圖像超分辨率中的有效性與高效性。Zhang等[53]提出了一種由隨機(jī)模糊–降采樣–噪聲級(jí)聯(lián)并可隨機(jī)洗牌的實(shí)用退化模型,聯(lián)合ESRGAN架構(gòu)端到端訓(xùn)練出BSRGAN,在未知復(fù)雜退化的真實(shí)圖像上實(shí)現(xiàn)盲超分辨率,顯著提升了視覺質(zhì)量與魯棒性,驗(yàn)證了該方法在實(shí)際場(chǎng)景中的有效性。

2.5.2. 多圖像超分辨率

多圖像超分辨率(MISR)技術(shù)利用多個(gè)低分辨率圖像重建一個(gè)高分辨率圖像。這種方法通常涉及到圖像配準(zhǔn),以確保多個(gè)圖像中的場(chǎng)景對(duì)齊,然后通過融合技術(shù)合并圖像信息以提高分辨率。與單圖像超分辨率(SISR)技術(shù)不同,MISR通過整合多幅圖像中的互補(bǔ)信息,能夠更有效地恢復(fù)高分辨率圖像的細(xì)節(jié)和結(jié)構(gòu)。SISR與MISR的相關(guān)比較見表3。

Salvetti等[54]提出了一種基于殘差特征注意力的深度神經(jīng)網(wǎng)絡(luò) RAMS,利用3D卷積同時(shí)融合多幅低分辨率遙感影像的時(shí)空信息,實(shí)現(xiàn)3×超分辨率重建,在公開Proba-V數(shù)據(jù)集上顯著優(yōu)于單圖與現(xiàn)有多圖方法,驗(yàn)證了其在大尺度遙感場(chǎng)景中的有效性與可遷移性。MISR的優(yōu)勢(shì)在于它可以利用多個(gè)視角中的冗余信息來增強(qiáng)細(xì)節(jié)并減少噪聲,這種方法特別適合于場(chǎng)景相對(duì)靜態(tài)的情況,Xiu等[55]提出的一種新的端到端網(wǎng)絡(luò)結(jié)構(gòu)CoT-MISR,結(jié)合了卷積和Transformer的優(yōu)勢(shì),有效利用低分辨率圖像的局部和全局信息,在PROBA-V數(shù)據(jù)集上取得了目前多圖像超分辨率任務(wù)的最佳性能,為遙感圖像融合提供了新的思路。隨著計(jì)算能力的提升和算法的改進(jìn),MISR技術(shù)在處理大型圖像數(shù)據(jù)集和提供更高分辨率圖像方面變得更加有效。

2.5.3. 局限性

當(dāng)前人工智能與圖像超分辨率的結(jié)合取得了一定進(jìn)展,但仍面臨挑戰(zhàn)。首先,雖然CNN模型被廣泛使用,但GAN模型在處理復(fù)雜場(chǎng)景和不同縮放任務(wù)時(shí)更具優(yōu)勢(shì),未來的研究需要探索如何結(jié)合兩者的優(yōu)

基于數(shù)據(jù)驅(qū)動(dòng)的圖像分辨率提升理論和技術(shù)綜述

Figure 3. Schematic diagram of the structure of Transformers

3. Transformers結(jié)構(gòu)示意圖

Table 3. Correlation comparison between SISR and MISR

基于數(shù)據(jù)驅(qū)動(dòng)的圖像分辨率提升理論和技術(shù)綜述勢(shì)并簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)[56]。其次,現(xiàn)有模型在適應(yīng)多變的實(shí)際場(chǎng)景方面存在困難,需要設(shè)計(jì)更靈活的模型來利用不同場(chǎng)景的先驗(yàn)知識(shí)。此外,可以引入深度學(xué)習(xí)中的多種學(xué)習(xí)方法,如注意力機(jī)制和多因素學(xué)習(xí),以提升模型性能。在圖像退化和采樣方法方面,需要探索更接近真實(shí)情況的模型和方法,以彌補(bǔ)現(xiàn)有方法與實(shí)際應(yīng)用之間的差距。最后,現(xiàn)有的目標(biāo)函數(shù)和評(píng)估標(biāo)準(zhǔn)存在一定的局限性,需要開發(fā)更合理的損失函數(shù)和質(zhì)量評(píng)價(jià)方法,以平衡模型的精度和感知質(zhì)量。

3. 應(yīng)用案例

3.1. 視覺檢測(cè)

視覺檢測(cè)是利用計(jì)算機(jī)視覺技術(shù)來識(shí)別、定位和分析圖像或視頻中的物體和事件。它不僅僅是一個(gè)技術(shù)過程,更是一種使機(jī)器能夠理解和解釋視覺信息的革命性能力,這種能力使得機(jī)器能夠在各種復(fù)雜的環(huán)境中執(zhí)行任務(wù)。數(shù)據(jù)驅(qū)動(dòng)模型,尤其是深度學(xué)習(xí)模型,已經(jīng)成為實(shí)現(xiàn)這一能力的核心工具。這些模型通過從大量圖像數(shù)據(jù)中學(xué)習(xí),能夠自動(dòng)提取特征并建立復(fù)雜的模式識(shí)別系統(tǒng)。深度學(xué)習(xí)的發(fā)展,特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)的廣泛應(yīng)用,已經(jīng)極大地推動(dòng)了視覺檢測(cè)技術(shù)的進(jìn)步。CNN在圖像和視頻分析任務(wù)中展現(xiàn)出了前所未有的性能,使得機(jī)器能夠在沒有人類直接干預(yù)的情況下,準(zhǔn)確地識(shí)別和定位圖像中的物體。

隨著技術(shù)的不斷進(jìn)步,視覺檢測(cè)的應(yīng)用已經(jīng)擴(kuò)展到了許多新的領(lǐng)域。在館藏?cái)?shù)字化領(lǐng)域,倪劼等[57]提出一種改進(jìn)的Real-ESRGAN模型,針對(duì)館藏近代低分辨率圖像引入多尺度特征融合與通道注意力機(jī)制,在4×超分辨率重建后將圖像送入后續(xù)視覺檢測(cè)流程,顯著提升了歷史文獻(xiàn)中文字、圖案等關(guān)鍵細(xì)節(jié)的檢出率(PSNR↑3 dB, SSIM↑0.0672),為圖書館數(shù)字化展示與智能檢索提供了高保真視覺基礎(chǔ)。在體育分析中,視覺檢測(cè)技術(shù)被用來追蹤運(yùn)動(dòng)員表現(xiàn)和比賽動(dòng)態(tài),謝競(jìng)光和程新年[58]提出的一個(gè)結(jié)合生成對(duì)抗網(wǎng)絡(luò)(GANs)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)的系統(tǒng),用于預(yù)測(cè)排球比賽中的戰(zhàn)術(shù)數(shù)據(jù)。該系統(tǒng)利用計(jì)算機(jī)視覺技術(shù)自動(dòng)從比賽視頻中提取關(guān)鍵信息,并運(yùn)用深度學(xué)習(xí)進(jìn)行智能分析。這一方法能有效識(shí)別和理解排球比賽中的復(fù)雜戰(zhàn)術(shù)行為,并提供準(zhǔn)確預(yù)測(cè),為戰(zhàn)術(shù)分析、訓(xùn)練和比賽決策提供技術(shù)支持。

盡管視覺檢測(cè)技術(shù)已經(jīng)取得了顯著的成就,但仍有許多挑戰(zhàn)需要克服。例如,如何在不同的光照條件和復(fù)雜背景中保持高準(zhǔn)確性,如何提高模型的實(shí)時(shí)處理能力,以及如何處理大規(guī)模圖像數(shù)據(jù)集。未來的研究將繼續(xù)探索更高效的算法,提高模型的泛化能力和解釋性,以及開發(fā)新的硬件和軟件解決方案,以滿足不斷增長(zhǎng)的應(yīng)用需求。

3.2. 工業(yè)無損檢測(cè)

在工業(yè)應(yīng)用中,無損檢測(cè)(NDT)扮演著至關(guān)重要的角色,它確保了產(chǎn)品在不遭受物理損傷的情況下,其質(zhì)量和安全性得到有效保障。隨著與圖像檢測(cè)技術(shù)的融合,NDT的能力和效率得到了顯著提升,成為了維護(hù)工業(yè)產(chǎn)品質(zhì)量的強(qiáng)有力工具。利用高分辨率成像技術(shù)、尖端圖像處理算法以及機(jī)器學(xué)習(xí)模型,這些綜合技術(shù)能夠自動(dòng)化地識(shí)別材料表面的微觀缺陷,精確評(píng)估焊接與連接的質(zhì)量,持續(xù)監(jiān)測(cè)復(fù)合材料的結(jié)構(gòu)完整性,并準(zhǔn)確驗(yàn)證電子組件的制造精度。

在這一領(lǐng)域,高分辨率成像技術(shù)的應(yīng)用尤為關(guān)鍵,其提供的超高像素密度和細(xì)節(jié)還原能力,使得檢測(cè)過程能夠捕獲材料表面的微觀結(jié)構(gòu)。通過提升圖像的空間分辨率與對(duì)比度,這些技術(shù)為后續(xù)分析提供了更清晰、更豐富的視覺數(shù)據(jù)基礎(chǔ),使微米級(jí)甚至納米級(jí)的特征可視化成為可能,從而為無損檢測(cè)的精確性奠定技術(shù)前提。

隨著圖像檢測(cè)技術(shù)的不斷發(fā)展,其在工業(yè)無損檢測(cè)領(lǐng)域的應(yīng)用越來越廣泛。在窄間隙焊縫的缺陷檢測(cè)中,Nicolson等[59]以雙串聯(lián)相控陣超聲與FMC成像,在窄間隙焊縫中實(shí)時(shí)分辨亞毫米級(jí)未熔合缺陷,為核電厚壁焊接提供高分辨率在線檢測(cè),使核電與可再生能源等領(lǐng)域厚壁結(jié)構(gòu)的高質(zhì)量、低成本制造取得可靠保障。在渦輪葉片X射線成像領(lǐng)域,馬鐘、趙歆波等人[60]提出了一種基于頻域亞像素配準(zhǔn)與非均勻插值的超分辨率重建技術(shù),該技術(shù)利用多幅含相對(duì)位移的低分辨率DR圖像,通過傅里葉域精確配準(zhǔn)和雙調(diào)和樣條插值,實(shí)現(xiàn)了分辨率提升至原圖4倍的高保真成像,有效揭示了葉片表面及內(nèi)部的細(xì)微缺陷,實(shí)驗(yàn)驗(yàn)證其在航空無損檢測(cè)中具有顯著的工程應(yīng)用價(jià)值。

這些研究表明,高分辨率圖像技術(shù)的進(jìn)步在工業(yè)無損檢測(cè)領(lǐng)域正發(fā)揮越來越關(guān)鍵的作用。通過持續(xù)提升成像設(shè)備的解析能力與信噪比,該技術(shù)為材料微觀結(jié)構(gòu)的可視化提供了更強(qiáng)大的支撐,從而推動(dòng)無損檢測(cè)向更高精度和可靠性發(fā)展。

3.3. 醫(yī)療成像

醫(yī)療成像技術(shù)是一種用于獲取人體內(nèi)部結(jié)構(gòu)圖像的非侵入性或微創(chuàng)性技術(shù),它在臨床診斷和治療中發(fā)揮著至關(guān)重要的作用。通過不同的成像原理,如X射線、超聲波、磁共振、放射性核素等,醫(yī)療成像技術(shù)通過不斷提升空間分辨率和對(duì)比度,能夠以微米級(jí)精度呈現(xiàn)人體內(nèi)部器官、組織的微觀結(jié)構(gòu),為臨床研究提供高保真圖像基礎(chǔ)。數(shù)據(jù)驅(qū)動(dòng)模型顯著優(yōu)化了成像設(shè)備的解析能力與信噪比,使納米級(jí)生物特征的可視化成為可能,推動(dòng)醫(yī)療成像向更高清晰度和效率發(fā)展。

醫(yī)療成像技術(shù)結(jié)合圖像檢測(cè)旨在提高疾病診斷的準(zhǔn)確性和效率,高分辨率成像技術(shù)(如CT、MRI)通過提升像素密度和層析精度,為圖像處理算法提供了更豐富的結(jié)構(gòu)細(xì)節(jié)?;谏疃葘W(xué)習(xí)的超分辨率重建和噪聲抑制模型,能進(jìn)一步優(yōu)化原始圖像的紋理清晰度與邊界銳度,使細(xì)胞級(jí)結(jié)構(gòu)或微血管形態(tài)等亞視覺特征得以清晰呈現(xiàn),為醫(yī)學(xué)研究奠定高質(zhì)量數(shù)據(jù)基礎(chǔ)。

Sobek等[61]開發(fā)了一個(gè)名為Med-YOLO的三維醫(yī)學(xué)圖像目標(biāo)檢測(cè)框架,該框架基于YOLO模型。Med-YOLO通過3D版本替換了2D神經(jīng)網(wǎng)絡(luò)層,使其能夠理解和分析醫(yī)學(xué)圖像中的三維結(jié)構(gòu)。Zhe Guo等[62]的多模態(tài)分割算法,利用超高分辨率圖像疊加,實(shí)現(xiàn)了亞毫米級(jí)軟組織紋理的精準(zhǔn)分層映射。此外,AI醫(yī)學(xué)影像模型如SLIViT [63],它作為一種深度學(xué)習(xí)模型,能夠快速高效地進(jìn)行專家級(jí)圖像分析,該模型通過融合多尺度分辨率數(shù)據(jù),在低信噪比條件下仍能保持生物標(biāo)記物成像的完整性,驗(yàn)證了高分辨率技術(shù)對(duì)復(fù)雜醫(yī)學(xué)圖像分析的普適價(jià)值。這些技術(shù)的應(yīng)用,使得醫(yī)學(xué)影像檢測(cè)更加精確,有助于提高疾病診斷的準(zhǔn)確性和治療的成功率。

醫(yī)療成像中的圖像檢測(cè)技術(shù)面臨的挑戰(zhàn)在于平衡輻射劑量與分辨率需求(如低劑量CT)、突破衍射極限的微觀成像,以及海量高分辨率數(shù)據(jù)的實(shí)時(shí)處理。未來研究將聚焦開發(fā)輕量化超分辨率算法、量子成像傳感器等硬件革新,以突破現(xiàn)有分辨率極限,實(shí)現(xiàn)無損活體納米級(jí)成像。

4. 比較與討論

在圖像檢測(cè)領(lǐng)域,傳統(tǒng)圖像處理方法(如SIFT、HOG特征提取)依賴人工設(shè)計(jì)特征與統(tǒng)計(jì)模型(PCA、LDA),其優(yōu)勢(shì)在于算法透明、計(jì)算效率高,但在復(fù)雜場(chǎng)景(如動(dòng)態(tài)模糊、低紋理區(qū)域)中泛化能力有限。而深度學(xué)習(xí)模型(CNN、Transformer)通過數(shù)據(jù)驅(qū)動(dòng)的端到端學(xué)習(xí),自動(dòng)挖掘多層次特征表達(dá),顯著提升了對(duì)噪聲、形變等干擾的魯棒性。

不同領(lǐng)域?qū)D像質(zhì)量的差異化需求,正推動(dòng)分辨率增強(qiáng)技術(shù)沿著“場(chǎng)景定制”路徑快速演進(jìn):在工業(yè)檢測(cè)中,時(shí)序生成模型通過捕捉視頻幀間動(dòng)態(tài)信息,顯著改善了運(yùn)動(dòng)模糊圖像的恢復(fù)效果;在醫(yī)學(xué)成像領(lǐng)域,三維分割算法借助超高分辨率數(shù)據(jù),突破了壓縮感知稀疏重建的精度瓶頸;而在文化遺產(chǎn)保護(hù)場(chǎng)景,改進(jìn)的超分辨率模型針對(duì)古籍褪色文字進(jìn)行紋理保真優(yōu)化,有效避免了傳統(tǒng)方法對(duì)模糊字形的誤判。

針對(duì)視覺質(zhì)量?jī)?yōu)化問題,當(dāng)前研究方法呈現(xiàn)出明顯的技術(shù)分界:傳統(tǒng)算法憑借人工設(shè)計(jì)特征的高可解釋性及低計(jì)算復(fù)雜度占據(jù)基礎(chǔ)優(yōu)勢(shì),但其表征能力受限于先驗(yàn)?zāi)P蜆?gòu)建范式,在動(dòng)態(tài)模糊、弱紋理等復(fù)雜成像條件下的泛化性能呈現(xiàn)斷崖式衰減;而深度學(xué)習(xí)方法通過端到端的層次化特征學(xué)習(xí)機(jī)制顯著提升了系統(tǒng)的魯棒性,卻伴隨著模型參數(shù)量激增引發(fā)的計(jì)算資源消耗與訓(xùn)練數(shù)據(jù)需求的同步激增。為此,現(xiàn)代分辨率增強(qiáng)技術(shù)已突破傳統(tǒng)“同質(zhì)化”超分辨范式,創(chuàng)新性地構(gòu)建面向工業(yè)檢測(cè)、醫(yī)學(xué)影像、文化遺產(chǎn)修復(fù)等垂直領(lǐng)域的自適應(yīng)增強(qiáng)框架。通過引入時(shí)序生成對(duì)抗網(wǎng)絡(luò)建模動(dòng)態(tài)退化過程、構(gòu)建三維點(diǎn)云高密度重建的物理約束模型以及融合多尺度紋理先驗(yàn)的損失函數(shù),該技術(shù)范式成功實(shí)現(xiàn)了從低層次像素級(jí)復(fù)現(xiàn)到高層次語義信息增強(qiáng)的技術(shù)躍遷,為不同應(yīng)用場(chǎng)景下的圖像質(zhì)量提升提供了理論依據(jù)與方法支撐。

5. 發(fā)展趨勢(shì)

基于數(shù)據(jù)驅(qū)動(dòng)模型的現(xiàn)有突破與共性挑戰(zhàn),未來研究將聚焦以下方向:

(1) 提升數(shù)據(jù)預(yù)處理和特征提取的精度

在視覺數(shù)據(jù)的預(yù)處理階段,對(duì)圖像進(jìn)行降噪、增強(qiáng)和歸一化等操作至關(guān)重要。這些操作能夠提高后續(xù)模型訓(xùn)練的效率和檢測(cè)的準(zhǔn)確性。特征提取作為視覺數(shù)據(jù)處理的關(guān)鍵步驟,直接影響到模型的性能。未來的研究需要開發(fā)更先進(jìn)的算法,以提高特征提取的精度和魯棒性,尤其是在復(fù)雜環(huán)境下對(duì)目標(biāo)的識(shí)別和分類。例如,深度學(xué)習(xí)模型如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer在特征提取方面展現(xiàn)出了強(qiáng)大的能力,未來的研究可以進(jìn)一步探索這些模型在視覺數(shù)據(jù)處理中的應(yīng)用。

(2) 探索基于深度學(xué)習(xí)的多模態(tài)融合技術(shù)。

多模態(tài)融合技術(shù)通過整合來自不同傳感器或不同來源的數(shù)據(jù),能夠提供更全面的圖像信息,提高檢測(cè)的準(zhǔn)確性和魯棒性。深度學(xué)習(xí)模型,尤其是多模態(tài)深度學(xué)習(xí)模型,為處理和融合多源數(shù)據(jù)提供了強(qiáng)大的工具。未來的研究可以探索如何利用深度學(xué)習(xí)模型來處理和融合來自不同模態(tài)的數(shù)據(jù),以提高視覺數(shù)據(jù)處理的性能。

(3) 發(fā)展小樣本學(xué)習(xí)和模型可解釋性

在實(shí)際應(yīng)用中,某些場(chǎng)景下標(biāo)注數(shù)據(jù)的獲取可能非常昂貴或不可行,這就需要模型能夠在少量標(biāo)注數(shù)據(jù)上進(jìn)行有效的學(xué)習(xí)。小樣本學(xué)習(xí)技術(shù)可以幫助模型在數(shù)據(jù)稀缺的情況下進(jìn)行學(xué)習(xí)。同時(shí),模型的可解釋性也是視覺數(shù)據(jù)處理領(lǐng)域的一個(gè)重要研究方向,它可以幫助用戶理解模型的決策過程,增強(qiáng)對(duì)模型的信任。

(4) 推動(dòng)無監(jiān)督和自監(jiān)督學(xué)習(xí)技術(shù)的發(fā)展

無監(jiān)督學(xué)習(xí)技術(shù)可以在沒有標(biāo)注數(shù)據(jù)的情況下發(fā)現(xiàn)數(shù)據(jù)中的模式和結(jié)構(gòu),這對(duì)于大規(guī)模圖像數(shù)據(jù)的處理尤為重要。自監(jiān)督學(xué)習(xí)技術(shù)通過設(shè)計(jì)預(yù)測(cè)任務(wù),使模型能夠從未標(biāo)注的數(shù)據(jù)中學(xué)習(xí)有用的特征表示。這些技術(shù)的發(fā)展將進(jìn)一步拓寬視覺數(shù)據(jù)處理技術(shù)的應(yīng)用范圍。

(5) 應(yīng)對(duì)實(shí)際成像環(huán)境的復(fù)雜性

實(shí)際成像環(huán)境的復(fù)雜性對(duì)視覺數(shù)據(jù)處理技術(shù)提出了挑戰(zhàn),包括光照變化、遮擋、動(dòng)態(tài)場(chǎng)景等問題。未來的研究需要開發(fā)更加魯棒的模型,以應(yīng)對(duì)這些復(fù)雜環(huán)境的影響。

綜上所述,視覺數(shù)據(jù)處理領(lǐng)域的數(shù)據(jù)驅(qū)動(dòng)模型正朝著提高預(yù)處理和特征提取精度、探索多模態(tài)融合技術(shù)、發(fā)展小樣本學(xué)習(xí)和模型可解釋性、推動(dòng)無監(jiān)督和自監(jiān)督學(xué)習(xí)技術(shù)發(fā)展以及應(yīng)對(duì)實(shí)際成像環(huán)境復(fù)雜性等方向發(fā)展。這些趨勢(shì)將共同推動(dòng)視覺數(shù)據(jù)處理技術(shù)的進(jìn)步,以適應(yīng)不斷增長(zhǎng)的實(shí)際應(yīng)用需求。

6. 總結(jié)與展望

本文系統(tǒng)綜述了視覺數(shù)據(jù)處理數(shù)據(jù)驅(qū)動(dòng)模型的發(fā)展脈絡(luò)與技術(shù)體系,重點(diǎn)聚焦圖像分辨率提升的關(guān)鍵技術(shù)路徑與應(yīng)用前景。通過對(duì)三維重建、壓縮感知、單像素成像及超分辨率等核心技術(shù)的剖析,揭示了數(shù)據(jù)驅(qū)動(dòng)模型從傳統(tǒng)機(jī)器學(xué)習(xí)到深度學(xué)習(xí)(CNN、Transformer、DDPM)的范式演進(jìn)。研究表明,物理機(jī)制與數(shù)據(jù)驅(qū)動(dòng)的深度融合、多模態(tài)協(xié)同重建、邊緣輕量化部署已成為突破現(xiàn)有技術(shù)瓶頸的關(guān)鍵方向。綜上,筆者認(rèn)為視覺數(shù)據(jù)處理領(lǐng)域下一步的研究重點(diǎn)方向如下。

(1) 多模態(tài)融合技術(shù)的發(fā)展:目前的融合框架多數(shù)是基于兩種不同來源的圖像,未來研究應(yīng)探索將更多種類的圖像數(shù)據(jù)融合在一起,以期獲得更豐富全面的特征信息。這將有效改善當(dāng)前大部分融合算法提取的特征為單一特征的局限性,提高視覺數(shù)據(jù)處理的準(zhǔn)確性和魯棒性。

(2) 預(yù)處理技術(shù)的整合與智能化:隨著圖像配準(zhǔn)、特征提取等預(yù)處理技術(shù)的快速發(fā)展,未來的研究應(yīng)著力于將這些處理模塊與融合模塊整合為一套智能的處理系統(tǒng),實(shí)現(xiàn)一站式融合。這將降低對(duì)輸入圖像的要求,擴(kuò)大多源圖像融合技術(shù)的應(yīng)用范圍,并提升用戶體驗(yàn)。

(3) 評(píng)價(jià)指標(biāo)的標(biāo)準(zhǔn)化:融合算法的性能并不總是與融合圖像性能完全匹配,現(xiàn)有的評(píng)價(jià)指標(biāo)也不完全等同于圖像的主觀評(píng)價(jià)。因此,為了更客觀地評(píng)價(jià)融合效果,未來研究需要制定和規(guī)范評(píng)價(jià)標(biāo)準(zhǔn),提升評(píng)價(jià)質(zhì)量,以更好地指導(dǎo)圖像融合技術(shù)的發(fā)展和應(yīng)用。

綜上所述,視覺數(shù)據(jù)處理領(lǐng)域的數(shù)據(jù)驅(qū)動(dòng)模型正面臨著新的挑戰(zhàn)和機(jī)遇,未來的研究將在多模態(tài)融合技術(shù)、預(yù)處理技術(shù)的整合與智能化、評(píng)價(jià)指標(biāo)的標(biāo)準(zhǔn)化等方面取得新的進(jìn)展,推動(dòng)視覺數(shù)據(jù)處理技術(shù)向更高精度、更廣應(yīng)用和更深理解的方向發(fā)展。

致 謝

衷心感謝山西省青年科學(xué)研究項(xiàng)目“高溫環(huán)境下爐外磁場(chǎng)差分實(shí)現(xiàn)大型礦熱爐電極端部位置的在線檢測(cè)”(202103021223067)所提供的支持。

NOTES

*通訊作者。


參考文獻(xiàn)

[1] Moulon, P., Monasse, P. and Marlet, R. (2013) Global Fusion of Relative Motions for Robust, Accurate and Scalable Structure from Motion. 2013 IEEE International Conference on Computer Vision, Sydney, 1-8 December 2013, 3248-3255. [Google Scholar] [CrossRef] 
[2] Heller, J., Havlena, M., Jancosek, M., Torii, A. and Pajdla, T. (2015) 3D Reconstruction from Photographs by CMP SfM Web Service. 2015 14th IAPR International Conference on Machine Vision Applications (MVA), Tokyo, 18-22 May 2015, 30-34. [Google Scholar] [CrossRef] 
[3] Schonberger, J.L. and Frahm, J. (2016) Structure-from-Motion Revisited. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 4104-4113. [Google Scholar] [CrossRef] 
[4] Cui, H., Gao, X., Shen, S. and Hu, Z. (2017) HSFM: Hybrid Structure-from-Motion. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 2393-2402. [Google Scholar] [CrossRef] 
[5] Yin, H.Y. and Yu, H.Y. (2020) Incremental SFM 3D Reconstruction Based on Monocular. 2020 13th International Symposium on Computational Intelligence and Design (ISCID), Hangzhou, 12-13 December 2020, 17-21. [Google Scholar] [CrossRef] 
[6] Seitz, S.M., Curless, B., Diebel, J., Scharstein, D. and Szeliski, R. (2006) A Comparison and Evaluation of Multi-View Stereo Reconstruction Algorithms. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, New York, 17-22 June 2006, 519-528.
[7] Sinha, S.N., Mordohai, P. and Pollefeys, M. (2007) Multi-View Stereo via Graph Cuts on the Dual of an Adaptive Tetrahedral Mesh. 2007 IEEE 11th International Conference on Computer Vision, Rio de Janeiro, 14-21 October 2007, 1-8. [Google Scholar] [CrossRef] 
[8] Lin, X.B., Wang, J.X. and Lin, C. (2020) Research on 3D Reconstruction in Binocular Stereo Vision Based on Feature Point Matching Method. 2020 IEEE 3rd International Conference on Information Systems and Computer Aided Education (ICISCAE), Dalian, 27-29 September 2020, 551-556. [Google Scholar] [CrossRef] 
[9] Wang, Y.X., Lu, Y.W., Xie, Z.H. and Lu, G.Y. (2021) Deep Unsupervised 3D SfM Face Reconstruction Based on Massive Landmark Bundle Adjustment. Proceedings of the 29th ACM International Conference on Multimedia, Chengdu, 20-24 October 2021, 1350-1358. [Google Scholar] [CrossRef] 
[10] Lindenberger, P., Sarlin, P., Larsson, V. and Pollefeys, M. (2021) Pixel-Perfect Structure-From-Motion with Featuremetric Refinement. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 5967-5977. [Google Scholar] [CrossRef] 
[11] Zhou, L., Zhang, Z., Jiang, H., Sun, H., Bao, H. and Zhang, G. (2021) DP-MVS: Detail Preserving Multi-View Surface Reconstruction of Large-Scale Scenes. Remote Sensing, 13, Article 4569. [Google Scholar] [CrossRef] 
[12] Eigen D., Puhrsch, C. and Fergus, R. (2014) Depth Map Prediction from a Single Image Using a Multi-Scale Deep Network. International Conference on Neural Information Processing Systems, Cambridge, 8-13 December 2014, 2366-2374.
[13] Eigen, D. and Fergus, R. (2015) Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture. 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, 7-13 December 2015, 2650-2658. [Google Scholar] [CrossRef] 
[14] Crispell, D. and Bazik, M. (2017) Pix2Face: Direct 3D Face Model Estimation. 2017 IEEE International Conference on Computer Vision Workshops (ICCVW), Venice, 22-29 October 2017, 2512-2518. [Google Scholar] [CrossRef] 
[15] Yao, Y., Luo, Z., Li, S., Fang, T. and Quan, L. (2018) MVSNet: Depth Inference for Unstructured Multi-View Stereo. In: Lecture Notes in Computer Science, Springer, 785-801. [Google Scholar] [CrossRef] 
[16] Yao, Y., Luo, Z., Li, S., Shen, T., Fang, T. and Quan, L. (2019) Recurrent MVSNet for High-Resolution Multi-View Stereo Depth Inference. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 15-20 June 2019, 5520-5529. [Google Scholar] [CrossRef] 
[17] Chen, R., Han, S., Xu, J. and Su, H. (2019) Point-Based Multi-View Stereo Network. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, 27 October-2 November 2019, 1538-1547. [Google Scholar] [CrossRef] 
[18] Zhang, J., Yao, Y., Li, S., Luo, Z. and Fang, T. (2020) Visibility-Aware Multi-View Stereo Network. Proceedings of the British Machine Vision Conference 2020, Manchester, 7-10 September 2020, 184-200. [Google Scholar] [CrossRef] 
[19] Wei, Z., Zhu, Q., Min, C., Chen, Y. and Wang, G. (2021) AA-RMVSNet: Adaptive Aggregation Recurrent Multi-View Stereo Network. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 6167-6176. [Google Scholar] [CrossRef] 
[20] Peng, R., Wang, R., Wang, Z., Lai, Y. and Wang, R. (2022) Rethinking Depth Estimation for Multi-View Stereo: A Unified Representation. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 18-24. [Google Scholar] [CrossRef] 
[21] Mildenhall, B., Srinivasan, P.P., Tancik, M., Barron, J.T., Ramamoorthi, R. and Ng, R. (2020) NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. In: Lecture Notes in Computer Science, Springer, 405-421. [Google Scholar] [CrossRef] 
[22] Yen-Chen, L., Florence, P., Barron, J.T., Rodriguez, A., Isola, P. and Lin, T. (2021). iNeRF: Inverting Neural Radiance Fields for Pose Estimation. 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Prague, 27 September-1 October 2021, 1323-1330. [CrossRef] 
[23] Xu, Q.G., Xu, Z., Philip, J., Bi, S., Shu, Z., Sunkavalli, K., et al. (2022) Point-NeRF: Point-Based Neural Radiance Fields. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 5428-5438. [Google Scholar] [CrossRef] 
[24] Xu, L., Xiangli, Y., Peng, S., Pan, X., Zhao, N., Theobalt, C., et al. (2023) Grid-Guided Neural Radiance Fields for Large Urban Scenes. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 17-24 June 2023, 8296-8306. [Google Scholar] [CrossRef] 
[25] Stucker, C. and Schindler, K. (2020) ResDepth: Learned Residual Stereo Reconstruction. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Seattle, 14-19 June 2020, 707-716. [Google Scholar] [CrossRef] 
[26] Peng, S.D., Zhang, Y.Q., Xu, Y.H., Wang, Q.Q., Shuai, Q., Bao, H.J. and Zhou, X.W. (2021) Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 20-25 June 2021, 9050-9059. [Google Scholar] [CrossRef] 
[27] Huang, Y.H., He, Y., Yuan, Y.J., Lai, Y.K. and Gao, L. (2022) StylizedNeRF: Consistent 3D Scene Stylization as Stylized Nerf via 2D-3D Mutual Learning. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 18321-18331. [Google Scholar] [CrossRef] 
[28] Yu, L., Li, X., Fu, C., Cohen-Or, D. and Heng, P. (2018) Pu-Net: Point Cloud Upsampling Network. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 2790-2799. [Google Scholar] [CrossRef] 
[29] Li, R., Li, X., Fu, C., Cohen-Or, D. and Heng, P. (2019) PU-GAN: A Point Cloud Upsampling Adversarial Network. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, 27 October-2 November 2019, 7202-7211. [Google Scholar] [CrossRef] 
[30] He, Y., Tang, D., Zhang, Y., Xue, X. and Fu, Y. (2023) Grad-Pu: Arbitrary-Scale Point Cloud Upsampling via Gradient Descent with Learned Distance Functions. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 17-24 June 2023, 5354-5363. [Google Scholar] [CrossRef] 
[31] Mildenhall, B., Srinivasan, P.P., Tancik, M., Barron, J.T., Ramamoorthi, R. and Ng, R. (2020) NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. In: Lecture Notes in Computer Science, Springer, 405-421. [Google Scholar] [CrossRef] 
[32] Li, S.Y., Yang, W. and Liao, Q. (2024) PMAFusion: Projection-Based Multi-Modal Alignment for 3D Semantic Occupancy Prediction. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Seattle, 17-18 June 2024, 3627-3634. [Google Scholar] [CrossRef] 
[33] Jiang, H.W., Huang, Q. and Pavlakos, G. (2024) Real3D: Scaling up Large Reconstruction Models with Real-World Images. [Google Scholar] [CrossRef] 
[34] Yoshida, S., Sun, Z., Yoshizawa, S., Michikawa, T., Noda, S., Micheletto, R., et al. (2024). Image Compressed Sensing Based on Vision-Inspired Importance Maps. 2024 IEEE International Conference on Imaging Systems and Techniques (IST), Tokyo, 14-16 October 2024, 1-6. [CrossRef] 
[35] He, Y.C., Wang, F., Wang, S.Y. and Chen, B.D. (2017) Diffusion Adaptation Framework for Compressive Sensing Reconstruction. Signal Processing, 176, Article 107660.
[36] Oikonomou, V.P., Nikolopoulos, S. and Kompatsiaris, I. (2019) A Novel Compressive Sensing Scheme under the Variational Bayesian Framework. 2019 27th European Signal Processing Conference (EUSIPCO), A Coruna, 2-6 September 2019, 1-5. [Google Scholar] [CrossRef] 
[37] Li, S., Ling, Z. and Zhu, K. (2024) Image Super Resolution by Double Dictionary Learning and Its Application to Tool Wear Monitoring in Micro Milling. Mechanical Systems and Signal Processing, 206, Article 110917. [Google Scholar] [CrossRef] 
[38] Beck, A. and Teboulle, M. (2009) A Fast Iterative Shrinkage-Thresholding Algorithm with Application to Wavelet-Based Image Deblurring. 2009 IEEE International Conference on AcousticsSpeech and Signal Processing, Taipei, 19-24 April 2009, 693-696. [Google Scholar] [CrossRef] 
[39] Li, C.B. (2010) An Efficient Algorithm for Total Variation Regularization with Applications to the Single Pixel Camera and Compressive Sensing. Master’s Thesis, Rice University.
[40] Bian, S. and Zhang, L. (2021) Overview of Match Pursuit Algorithms and Application Comparison in Image Reconstruction. 2021 IEEE Asia-Pacific Conference on Image ProcessingElectronics and Computers (IPEC), Dalian, 14-16 April 2021, 216-221. [Google Scholar] [CrossRef] 
[41] Khatib, R., Simon, D. and Elad, M. (2020) Learned Greedy Method (LGM): A Novel Neural Architecture for Sparse Coding and beyond. Journal of Visual Communication and Image Representation, 77, Article 103095. [Google Scholar] [CrossRef] 
[42] Li, S., Wang, H., Liu, T., Cui, Z., Chen, J.N. and Xia, Z. (2021) A Fast Barzilai-Borwein Gradient Projection for Sparse Reconstruction Algorithm Based on 3D Modeling: Application to ERT Imaging. IEEE Access, 9, 152913-152922. [Google Scholar] [CrossRef] 
[43] Yang, Y., Sun, J., Li, H. and Xu, Z. (2020) ADMM-CSNet: A Deep Learning Approach for Image Compressive Sensing. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42, 521-538. [Google Scholar] [CrossRef] [PubMed]
[44] Li, X., Ran, J. and Zhou, Z. (2022) An Efficient 3D Radar Imaging Algorithm Based on FISTA. 2022 IEEE 9th International Symposium on MicrowaveAntennaPropagation and EMC Technologies for Wireless Communications (MAPE), Chengdu, 26-29 August 2022, 419-423. [Google Scholar] [CrossRef] 
[45] Huang, S., Chen, Y. and Qiao, T. (2021) An Extended Reweighted ?1 Minimization Algorithm for Image Restoration. Mathematics, 9, Article 3224. [Google Scholar] [CrossRef] 
[46] Edgar, M.P., Gibson, G.M. and Padgett, M.J. (2018) Principles and Prospects for Single-Pixel Imaging. Nature Photonics, 13, 13-20. [Google Scholar] [CrossRef] 
[47] Monin, S., Hahamovich, E. and Rosenthal, A. (2021) Single-Pixel Imaging of Dynamic Objects Using Multi-Frame Motion Estimation. Scientific Reports, 11, Article No. 7712. [Google Scholar] [CrossRef] [PubMed]
[48] Zhuang, Z., Li, T.H., Wang, H.K., et al. (2022) Blind Image Deblurring with Unknown Kernel Size and Substantial Noise. [Google Scholar] [CrossRef] 
[49] Song, H., Nie, X., Su, H., Chen, H., Zhou, Y., Zhao, X., et al. (2021) 0.8% Nyquist Computational Ghost Imaging via Non-Experimental Deep Learning. Optics Communications, 520, Article 128450. [Google Scholar] [CrossRef] 
[50] Zhang, H., Zhao, Q., Xu, W., Wang, Y., Li, F., Liu, S., et al. (2024) Optical Single-Channel Color Image Encryption Based on Chaotic Palmprint Phase Masks. Journal of Optics, 53, 3342-3350. [Google Scholar] [CrossRef] 
[51] Liu, S.P., Wu, H., Li, Q., Meng, X. and Yin, Y. (2023) Super-Coding Resolution Single-Pixel Imaging Based on Unpaired Data-Driven Deep Learning. Optics and Lasers in Engineering, 170, Article 107786. [Google Scholar] [CrossRef] 
[52] Liang, J.Y., Cao, J.Z., Sun, G.L., Zhang, K., et al. (2021) SwinIR: Image Restoration Using Swin Transformer. 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), Montreal, 11-17 October 2021, 1833-1844. [Google Scholar] [CrossRef] 
[53] Zhang, K., Liang, J.Y., Van Gool, L. and Timofte, R. (2021) Designing a Practical Degradation Model for Deep Blind Image Super-Resolution. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 4771-4780. [Google Scholar] [CrossRef] 
[54] Salvetti, F., Mazzia, V., Khaliq, A. and Chiaberge, M. (2020) Multi-Image Super Resolution of Remotely Sensed Images Using Residual Attention Deep Neural Networks. Remote Sensing, 12, Article No. 2207. [Google Scholar] [CrossRef] 
[55] Song, Q., Xiu, M., Nie, Y., Hu, M. and Liu, C. (2024) CoT-MISR: Marrying Convolution and Transformer for Multi-Image Super-Resolution. Multimedia Tools and Applications, 83, 76891-76903. [Google Scholar] [CrossRef] 
[56] Li, H.A., Zheng, Q.X., Tao, R.L., et al. (2023) Review of Image Super-Resolution Based on Deep Learning. Journal of Graphics, 44, 1-15.
[57] 倪劼, 柳青遠(yuǎn), 周莉. 利用改進(jìn)的Real-ESRGAN模型進(jìn)行歷史圖像超分辨率重建研究[J]. 信息與管理研究, 2025, 10(1): 65-77.
[58] Xie, J. and Cheng, X. (2024) Volleyball Game Tactical Data Prediction System Using Computer Vision Technology. 2024 2nd International Conference on MechatronicsIoT and Industrial Informatics (ICMIII), Melbourne, 12-14 June 2024, 588-594. [Google Scholar] [CrossRef] 
[59] Nicolson, E., Mohseni, E., Lines, D., Tant, K.M.M., Pierce, G. and MacLeod, C.N. (2024) Towards an In-Process Ultrasonic Phased Array Inspection Method for Narrow-Gap Welds. NDT & E International, 144, Article 103074. [Google Scholar] [CrossRef] 
[60] 馬鐘, 趙歆波, 艾鑫, 張珂. 渦輪葉片X射線圖像超分辨率重建技術(shù)[J]. CT理論與應(yīng)用研究(中英文), 2010, 19(1): 41-47.
[61] Sobek, J., Medina Inojosa, J.R., Medina Inojosa, B.J., et al. (2023) MedYOLO: A Medical Image Object Detection Framework. [Google Scholar] [CrossRef] 
[62] Guo, Z., Li, X., Huang, H., Guo, N. and Li, Q. (2019) Deep Learning-Based Image Segmentation on Multimodal Medical Imaging. IEEE Transactions on Radiation and Plasma Medical Sciences, 3, 162-169. [Google Scholar] [CrossRef] [PubMed]
[63] Avram, O., Durmus, B., Rakocz, N., Corradetti, G., An, U., Nittala, M.G., et al. (2024) Accurate Prediction of Disease-Risk Factors from Volumetric Medical Scans by a Deep Vision Model Pre-Trained with 2D Scans. Nature Biomedical Engineering, 9, 507-520. [Google Scholar] [CrossRef] [PubMed]
本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動(dòng)電源

在工業(yè)自動(dòng)化蓬勃發(fā)展的當(dāng)下,工業(yè)電機(jī)作為核心動(dòng)力設(shè)備,其驅(qū)動(dòng)電源的性能直接關(guān)系到整個(gè)系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動(dòng)勢(shì)抑制與過流保護(hù)是驅(qū)動(dòng)電源設(shè)計(jì)中至關(guān)重要的兩個(gè)環(huán)節(jié),集成化方案的設(shè)計(jì)成為提升電機(jī)驅(qū)動(dòng)性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機(jī) 驅(qū)動(dòng)電源

LED 驅(qū)動(dòng)電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個(gè)照明設(shè)備的使用壽命。然而,在實(shí)際應(yīng)用中,LED 驅(qū)動(dòng)電源易損壞的問題卻十分常見,不僅增加了維護(hù)成本,還影響了用戶體驗(yàn)。要解決這一問題,需從設(shè)計(jì)、生...

關(guān)鍵字: 驅(qū)動(dòng)電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動(dòng)電源的公式,電感內(nèi)電流波動(dòng)大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計(jì) 驅(qū)動(dòng)電源

電動(dòng)汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動(dòng)汽車的核心技術(shù)之一是電機(jī)驅(qū)動(dòng)控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動(dòng)系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動(dòng)汽車的動(dòng)力性能和...

關(guān)鍵字: 電動(dòng)汽車 新能源 驅(qū)動(dòng)電源

在現(xiàn)代城市建設(shè)中,街道及停車場(chǎng)照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步,高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢(shì)逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動(dòng)電源 LED

LED通用照明設(shè)計(jì)工程師會(huì)遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動(dòng)電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動(dòng)電源的電磁干擾(EMI)問題成為了一個(gè)不可忽視的挑戰(zhàn)。電磁干擾不僅會(huì)影響LED燈具的正常工作,還可能對(duì)周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動(dòng)電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機(jī)重量也有所下降,所以,現(xiàn)在的LED驅(qū)動(dòng)電源

關(guān)鍵字: LED 驅(qū)動(dòng)電源 開關(guān)電源

LED驅(qū)動(dòng)電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動(dòng)LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動(dòng)電源
關(guān)閉