計(jì)算機(jī)視覺(jué)與圖像處理的核心區(qū)別的辨析(二)
基于核心定位的差異,我們從“核心目標(biāo)、技術(shù)鏈路、核心任務(wù)、數(shù)據(jù)需求、輸出結(jié)果”五大核心維度,進(jìn)一步拆解計(jì)算機(jī)視覺(jué)與圖像處理的具體區(qū)別,讓兩者的差異更清晰、更具象,避免因“共享部分基礎(chǔ)技術(shù)”而產(chǎn)生混淆。需要強(qiáng)調(diào)的是,兩者雖有部分技術(shù)重疊(如圖像預(yù)處理中的濾波、邊緣檢測(cè)),但這些技術(shù)在兩者中的“作用”和“定位”截然不同,這也是易混點(diǎn)之一,我們將在后續(xù)重點(diǎn)說(shuō)明。
(一)核心目標(biāo):優(yōu)化圖像 vs 理解世界
核心目標(biāo)是兩者最根本的區(qū)別,也是所有差異的源頭,我們可以用一句話精準(zhǔn)概括:
圖像處理的核心目標(biāo):改善圖像的視覺(jué)質(zhì)量,或?qū)D像進(jìn)行格式轉(zhuǎn)換、特征提取,為后續(xù)使用(人類(lèi)觀看或其他系統(tǒng)處理)提供更優(yōu)的圖像素材。它不關(guān)心圖像內(nèi)容的含義,只關(guān)心圖像本身的“好壞”——比如圖像是否清晰、是否有噪聲、顏色是否準(zhǔn)確、尺寸是否合適。無(wú)論處理過(guò)程多么復(fù)雜,最終的目標(biāo)都是輸出一張“更好用”的圖像,核心是“服務(wù)于圖像本身”。
例如,衛(wèi)星影像拍攝后,會(huì)經(jīng)過(guò)圖像處理技術(shù)進(jìn)行“去云、去霧、色彩校正”,目的是讓衛(wèi)星影像更清晰,方便人類(lèi)或后續(xù)系統(tǒng)查看地表細(xì)節(jié);工業(yè)相機(jī)拍攝的零件圖像,會(huì)經(jīng)過(guò)圖像處理進(jìn)行“邊緣增強(qiáng)、噪聲去除”,目的是讓零件的輪廓更清晰,為后續(xù)的質(zhì)檢提供更優(yōu)的圖像素材;老照片修復(fù)則是通過(guò)圖像處理技術(shù),去除照片上的劃痕、噪聲,還原照片的清晰度和色彩,讓人類(lèi)能更好地觀看。
計(jì)算機(jī)視覺(jué)的核心目標(biāo):通過(guò)圖像或視頻,感知現(xiàn)實(shí)世界的信息,實(shí)現(xiàn)對(duì)物體、場(chǎng)景、行為的識(shí)別、理解和決策,讓機(jī)器具備“看見(jiàn)并理解”世界的能力。它不關(guān)心圖像本身是否“完美”,只關(guān)心圖像中包含的“語(yǔ)義信息”——比如圖像中有什么物體、物體在什么位置、物體在做什么、場(chǎng)景是什么類(lèi)型。核心是“服務(wù)于機(jī)器對(duì)世界的理解”,圖像只是機(jī)器獲取現(xiàn)實(shí)世界信息的“載體”。
例如,自動(dòng)駕駛汽車(chē)的視覺(jué)系統(tǒng),核心目標(biāo)不是優(yōu)化拍攝到的路況圖像,而是通過(guò)圖像識(shí)別出前方的車(chē)輛、行人、紅綠燈、道路標(biāo)線,判斷出車(chē)輛與周邊物體的距離、行人的行走方向,預(yù)測(cè)出潛在的安全隱患,進(jìn)而做出剎車(chē)、加速、變道等決策;醫(yī)療影像的計(jì)算機(jī)視覺(jué)系統(tǒng),核心目標(biāo)不是優(yōu)化影像的清晰度(雖然可能會(huì)用到圖像處理技術(shù)輔助),而是通過(guò)影像識(shí)別出病灶的位置、大小、形態(tài),判斷病灶的類(lèi)型,為醫(yī)生的診斷提供參考;人臉識(shí)別系統(tǒng)的核心目標(biāo),不是優(yōu)化人臉圖像的質(zhì)量,而是通過(guò)人臉圖像識(shí)別出“這個(gè)人是誰(shuí)”,進(jìn)而實(shí)現(xiàn)解鎖、考勤、身份驗(yàn)證等功能。
(二)技術(shù)鏈路:?jiǎn)我患庸?vs 完整閉環(huán)
技術(shù)鏈路的差異,源于核心目標(biāo)的不同:圖像處理的技術(shù)鏈路是“單一的加工流程”,而計(jì)算機(jī)視覺(jué)的技術(shù)鏈路是“從采集到?jīng)Q策的完整閉環(huán)”,兩者的復(fù)雜程度和覆蓋范圍截然不同。
圖像處理的技術(shù)鏈路相對(duì)簡(jiǎn)單,核心是“輸入圖像→加工處理→輸出圖像”,是一個(gè)單一的、線性的加工過(guò)程,鏈路環(huán)節(jié)較少,且所有環(huán)節(jié)都圍繞“圖像優(yōu)化”展開(kāi)。其核心技術(shù)主要集中在“圖像預(yù)處理”和“圖像轉(zhuǎn)換”兩大模塊,具體包括:噪聲去除(高斯濾波、中值濾波)、圖像增強(qiáng)(直方圖均衡化、亮度調(diào)整)、圖像復(fù)原(去模糊、校正畸變)、圖像分割(簡(jiǎn)單的區(qū)域劃分)、圖像壓縮(格式轉(zhuǎn)換、尺寸壓縮)、圖像形態(tài)學(xué)操作(膨脹、腐蝕)等。
這些技術(shù)的核心作用,都是對(duì)輸入的原始圖像進(jìn)行針對(duì)性的加工,解決圖像的某個(gè)“瑕疵”或滿足某個(gè)“格式需求”,最終輸出一張優(yōu)化后的圖像。整個(gè)鏈路沒(méi)有“識(shí)別、理解、決策”等環(huán)節(jié),也不需要結(jié)合外部數(shù)據(jù)或模型,只要輸入圖像,就能通過(guò)固定的算法完成處理。例如,對(duì)一張模糊的監(jiān)控圖像進(jìn)行“去模糊+降噪”處理,鏈路就是“輸入模糊圖像→高斯濾波去噪→去模糊算法處理→輸出清晰圖像”,流程簡(jiǎn)單、目標(biāo)明確。
計(jì)算機(jī)視覺(jué)的技術(shù)鏈路則復(fù)雜得多,是一個(gè)“從圖像采集到?jīng)Q策輸出”的完整閉環(huán),涵蓋了“采集→預(yù)處理→特征提取→分析識(shí)別→決策輸出”五大核心環(huán)節(jié),且每個(gè)環(huán)節(jié)都環(huán)環(huán)相扣、層層遞進(jìn),構(gòu)成了一個(gè)完整的技術(shù)體系。需要注意的是,計(jì)算機(jī)視覺(jué)會(huì)用到圖像處理中的“圖像預(yù)處理”技術(shù),但這些技術(shù)只是計(jì)算機(jī)視覺(jué)鏈路中的“一個(gè)環(huán)節(jié)”,而非全部——圖像處理是計(jì)算機(jī)視覺(jué)的“基礎(chǔ)支撐”,但計(jì)算機(jī)視覺(jué)遠(yuǎn)不止圖像處理。
計(jì)算機(jī)視覺(jué)的技術(shù)鏈路中,除了圖像預(yù)處理(借鑒圖像處理技術(shù)),核心還包括:特征提?。ㄍㄟ^(guò)卷積神經(jīng)網(wǎng)絡(luò)CNN等深度學(xué)習(xí)技術(shù),自動(dòng)提取圖像的核心特征)、分析識(shí)別(通過(guò)圖像分類(lèi)、目標(biāo)檢測(cè)、圖像分割等算法,解讀圖像內(nèi)容)、決策輸出(將識(shí)別結(jié)果轉(zhuǎn)化為可執(zhí)行的指令)。整個(gè)鏈路需要結(jié)合深度學(xué)習(xí)模型、海量訓(xùn)練數(shù)據(jù)、高性能硬件(GPU、FPGA)等,是一個(gè)“多環(huán)節(jié)協(xié)同、多技術(shù)融合”的復(fù)雜閉環(huán),最終實(shí)現(xiàn)“從圖像到?jīng)Q策”的轉(zhuǎn)化。
例如,自動(dòng)駕駛的計(jì)算機(jī)視覺(jué)鏈路:首先通過(guò)激光雷達(dá)、攝像頭等設(shè)備采集路況圖像(圖像采集);然后對(duì)采集到的圖像進(jìn)行去噪、增強(qiáng)、幾何校正等預(yù)處理(借鑒圖像處理技術(shù));接著通過(guò)CNN提取圖像中的核心特征(如車(chē)輛、行人的輪廓特征);再通過(guò)YOLO、Faster R-CNN等算法進(jìn)行目標(biāo)檢測(cè)和場(chǎng)景理解,識(shí)別出車(chē)輛、行人、紅綠燈的位置和狀態(tài)(分析識(shí)別);最后根據(jù)識(shí)別結(jié)果,輸出剎車(chē)、加速、變道等決策指令(決策輸出)。整個(gè)鏈路涵蓋了“采集—處理—識(shí)別—決策”,遠(yuǎn)超出了圖像處理的單一加工流程。
(三)核心任務(wù):像素操作 vs 語(yǔ)義解讀
核心任務(wù)的差異,是核心目標(biāo)的具體體現(xiàn):圖像處理的核心任務(wù)是“對(duì)像素進(jìn)行操作”,聚焦于圖像的“形式”;計(jì)算機(jī)視覺(jué)的核心任務(wù)是“對(duì)語(yǔ)義進(jìn)行解讀”,聚焦于圖像的“內(nèi)容”。
圖像處理的核心任務(wù),本質(zhì)上是“像素級(jí)的操作與轉(zhuǎn)換”,所有任務(wù)都圍繞像素展開(kāi),不涉及任何語(yǔ)義解讀。具體來(lái)說(shuō),主要包括三大類(lèi)任務(wù):
第一類(lèi),圖像優(yōu)化任務(wù):解決圖像的“瑕疵”,改善圖像的視覺(jué)質(zhì)量,比如去噪、去模糊、校正畸變、色彩校正、亮度調(diào)整等,核心是讓圖像更清晰、更符合人類(lèi)或后續(xù)系統(tǒng)的觀看需求。這類(lèi)任務(wù)的核心是“調(diào)整像素的灰度值、顏色值”,比如去噪就是通過(guò)算法替換噪聲像素的灰度值,讓圖像變得平滑;亮度調(diào)整就是改變所有像素的亮度值,讓圖像更亮或更暗。
第二類(lèi),圖像轉(zhuǎn)換任務(wù):將圖像從一種形式轉(zhuǎn)換為另一種形式,滿足不同的使用需求,比如圖像壓縮(將高清圖像壓縮為低分辨率圖像,減少存儲(chǔ)占用)、圖像格式轉(zhuǎn)換(將JPG格式轉(zhuǎn)換為PNG格式)、圖像旋轉(zhuǎn)、裁剪、縮放等。這類(lèi)任務(wù)的核心是“改變像素的排列方式或數(shù)量”,比如圖像縮放就是調(diào)整像素的數(shù)量,實(shí)現(xiàn)圖像尺寸的變大或變?。粓D像旋轉(zhuǎn)就是改變像素的排列順序,讓圖像旋轉(zhuǎn)一定角度。
第三類(lèi),淺層特征提取任務(wù):提取圖像的淺層視覺(jué)特征,比如邊緣、角點(diǎn)、紋理等,但這些特征只是“像素的組合”,不具備語(yǔ)義含義,無(wú)法用于識(shí)別物體或理解場(chǎng)景。比如邊緣檢測(cè)就是提取圖像中亮度變化劇烈的像素區(qū)域,形成物體的輪廓邊緣,但無(wú)法判斷這個(gè)邊緣屬于什么物體;紋理提取就是捕捉圖像中像素的排列規(guī)律,形成紋理特征,但無(wú)法判斷這個(gè)紋理屬于什么物體。
計(jì)算機(jī)視覺(jué)的核心任務(wù),本質(zhì)上是“語(yǔ)義級(jí)的解讀與判斷”,所有任務(wù)都圍繞“圖像內(nèi)容的語(yǔ)義信息”展開(kāi),核心是讓機(jī)器“看懂”圖像中的內(nèi)容。具體來(lái)說(shuō),主要包括四大類(lèi)任務(wù):
第一類(lèi),識(shí)別任務(wù):判斷圖像中的內(nèi)容是什么,比如圖像分類(lèi)(判斷一張圖像是貓還是狗)、目標(biāo)檢測(cè)(識(shí)別圖像中物體的種類(lèi)和位置)、圖像分割(像素級(jí)識(shí)別,區(qū)分圖像中不同的物體和區(qū)域)。這類(lèi)任務(wù)的核心是“將像素特征轉(zhuǎn)化為語(yǔ)義標(biāo)簽”,比如通過(guò)提取圖像的核心特征,判斷出圖像中的物體是“行人”“車(chē)輛”還是“紅綠燈”。
第二類(lèi),理解任務(wù):解讀圖像中內(nèi)容的含義、狀態(tài)和關(guān)系,比如場(chǎng)景理解(判斷當(dāng)前場(chǎng)景是城市道路還是高速公路)、行為識(shí)別(判斷行人是在行走還是橫穿馬路)、人臉表情識(shí)別(判斷人物是開(kāi)心還是生氣)。這類(lèi)任務(wù)的核心是“對(duì)語(yǔ)義信息進(jìn)行邏輯分析”,比如結(jié)合圖像中的所有物體(貨架、商品、收銀臺(tái)),判斷出當(dāng)前場(chǎng)景是“超市”。
第三類(lèi),跟蹤任務(wù):跟蹤圖像中物體的運(yùn)動(dòng)軌跡,比如車(chē)輛跟蹤(跟蹤前方車(chē)輛的行駛軌跡)、行人跟蹤(跟蹤監(jiān)控畫(huà)面中行人的行走路線)。這類(lèi)任務(wù)的核心是“結(jié)合時(shí)序圖像,分析物體的運(yùn)動(dòng)規(guī)律”,比如通過(guò)連續(xù)多幀圖像,判斷出車(chē)輛的行駛速度和下一步運(yùn)動(dòng)方向。
第四類(lèi),決策任務(wù):根據(jù)識(shí)別和理解的結(jié)果,做出相應(yīng)的決策或預(yù)測(cè),比如自動(dòng)駕駛中的剎車(chē)、加速?zèng)Q策,監(jiān)控安防中的異常報(bào)警決策,醫(yī)療影像中的病灶診斷提示。這類(lèi)任務(wù)的核心是“將語(yǔ)義信息轉(zhuǎn)化為可執(zhí)行的指令”,實(shí)現(xiàn)技術(shù)的落地價(jià)值。





