計(jì)算機(jī)視覺與圖像處理的核心區(qū)別的辨析(三)
數(shù)據(jù)需求:少量單一 vs 海量多樣
數(shù)據(jù)需求的差異,源于技術(shù)鏈路和核心任務(wù)的不同:圖像處理對(duì)數(shù)據(jù)的需求較少、形式單一,而計(jì)算機(jī)視覺對(duì)數(shù)據(jù)的需求海量、形式多樣,且對(duì)數(shù)據(jù)的標(biāo)注質(zhì)量要求極高。
圖像處理的核心是“對(duì)單一圖像進(jìn)行加工”,不需要依賴海量數(shù)據(jù),也不需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)注——即使只有一張?jiān)紙D像,也能通過固定的算法完成處理,且處理效果主要取決于算法的合理性,而非數(shù)據(jù)的數(shù)量和質(zhì)量。例如,對(duì)一張老照片進(jìn)行修復(fù),只需要這一張老照片作為輸入,不需要其他額外的數(shù)據(jù);對(duì)一張監(jiān)控圖像進(jìn)行去噪,也只需要這一張圖像,不需要海量的監(jiān)控圖像作為支撐。
此外,圖像處理對(duì)輸入圖像的形式要求相對(duì)寬松,無論是清晰的還是模糊的、無論是彩色的還是灰度的,都能進(jìn)行針對(duì)性的處理,且不需要對(duì)圖像中的內(nèi)容進(jìn)行標(biāo)注(如標(biāo)注“這是行人”“這是車輛”)。其數(shù)據(jù)需求的核心是“單一圖像的可用性”,而非“海量數(shù)據(jù)的支撐”。
計(jì)算機(jī)視覺的核心是“通過圖像解讀語(yǔ)義”,而語(yǔ)義解讀需要依賴海量的訓(xùn)練數(shù)據(jù),讓機(jī)器通過學(xué)習(xí)數(shù)據(jù)中的特征規(guī)律,掌握識(shí)別和理解圖像的能力——簡(jiǎn)單來說,機(jī)器要“看懂”貓,就需要觀看成千上萬張貓的圖像,學(xué)習(xí)貓的核心特征(尖耳朵、圓眼睛、毛茸茸的身體),才能在新的圖像中準(zhǔn)確識(shí)別出貓。因此,計(jì)算機(jī)視覺對(duì)數(shù)據(jù)的需求具有“海量性、多樣性、標(biāo)注性”三大特點(diǎn)。
一是海量性:計(jì)算機(jī)視覺模型(尤其是深度學(xué)習(xí)模型)的訓(xùn)練,需要海量的圖像數(shù)據(jù)作為支撐,數(shù)據(jù)量越多,模型的識(shí)別準(zhǔn)確率越高。例如,人臉識(shí)別模型的訓(xùn)練,需要數(shù)百萬甚至數(shù)千萬張不同人臉、不同角度、不同光線條件下的圖像數(shù)據(jù);目標(biāo)檢測(cè)模型的訓(xùn)練,需要海量包含不同物體、不同場(chǎng)景的圖像數(shù)據(jù)。
二是多樣性:計(jì)算機(jī)視覺需要應(yīng)對(duì)復(fù)雜多變的現(xiàn)實(shí)場(chǎng)景,因此訓(xùn)練數(shù)據(jù)需要具備多樣性——比如識(shí)別貓的模型,需要包含不同品種、不同顏色、不同角度、不同光線、不同遮擋條件下的貓的圖像,才能確保模型在實(shí)際應(yīng)用中,無論遇到什么情況,都能準(zhǔn)確識(shí)別出貓;自動(dòng)駕駛的視覺模型,需要包含晴天、雨天、陰天、夜間等不同天氣條件,城市道路、高速公路、鄉(xiāng)村道路等不同場(chǎng)景的圖像數(shù)據(jù)。
三是標(biāo)注性:計(jì)算機(jī)視覺的訓(xùn)練數(shù)據(jù),需要進(jìn)行精準(zhǔn)的標(biāo)注——即給圖像中的物體、場(chǎng)景、行為貼上對(duì)應(yīng)的語(yǔ)義標(biāo)簽,比如給圖像中的貓標(biāo)注“貓”,給行人標(biāo)注“行人”,給病灶區(qū)域標(biāo)注“病灶”。標(biāo)注的質(zhì)量直接決定了模型的訓(xùn)練效果,標(biāo)注越精準(zhǔn)、越詳細(xì),模型的識(shí)別準(zhǔn)確率越高。而數(shù)據(jù)標(biāo)注需要大量的人力和時(shí)間成本,這也是計(jì)算機(jī)視覺技術(shù)落地的結(jié)果。
輸出結(jié)果:優(yōu)化圖像 vs 語(yǔ)義決策
輸出結(jié)果的差異,是核心目標(biāo)和核心任務(wù)的最終體現(xiàn),也是兩者最直觀的區(qū)別——圖像處理的輸出結(jié)果是“優(yōu)化后的圖像”,而計(jì)算機(jī)視覺的輸出結(jié)果是“語(yǔ)義信息或決策指令”,兩者的輸出形式和價(jià)值導(dǎo)向截然不同。
圖像處理的輸出結(jié)果,始終是“圖像”——無論經(jīng)過多么復(fù)雜的處理,最終輸出的都是一張或多張優(yōu)化后的數(shù)字圖像,輸出形式單一,且輸出結(jié)果的價(jià)值的是“讓圖像更好用”(方便人類觀看或后續(xù)系統(tǒng)處理)。例如,對(duì)模糊的監(jiān)控圖像進(jìn)行去模糊處理,輸出的是清晰的監(jiān)控圖像;對(duì)老照片進(jìn)行修復(fù),輸出的是修復(fù)后的清晰照片;對(duì)圖像進(jìn)行壓縮,輸出的是壓縮后的低分辨率圖像。這些輸出結(jié)果,本質(zhì)上還是“圖像”,沒有任何語(yǔ)義信息或決策指令。
需要強(qiáng)調(diào)的是,圖像處理的輸出結(jié)果,是“服務(wù)于后續(xù)使用”的——可能是服務(wù)于人類(如老照片修復(fù)后供人觀看),也可能是服務(wù)于計(jì)算機(jī)視覺系統(tǒng)(如圖像預(yù)處理后,為計(jì)算機(jī)視覺的特征提取提供更優(yōu)的圖像素材)。但無論服務(wù)于誰,其輸出結(jié)果的本質(zhì)都是“圖像”,這是圖像處理與計(jì)算機(jī)視覺最直觀的區(qū)別。
計(jì)算機(jī)視覺的輸出結(jié)果,始終是“語(yǔ)義信息或決策指令”,不是“圖像”——其輸出形式多樣,核心價(jià)值是“為機(jī)器的決策提供支撐”,讓機(jī)器能根據(jù)輸出結(jié)果做出相應(yīng)的動(dòng)作。例如,人臉識(shí)別系統(tǒng)的輸出結(jié)果是“身份匹配成功”或“身份匹配失敗”(語(yǔ)義信息),進(jìn)而觸發(fā)解鎖或拒絕解鎖的動(dòng)作;目標(biāo)檢測(cè)系統(tǒng)的輸出結(jié)果是“圖像中有3個(gè)行人、2輛車輛,分別位于XX位置”(語(yǔ)義信息);自動(dòng)駕駛視覺系統(tǒng)的輸出結(jié)果是“前方有行人,建議剎車”(決策指令);醫(yī)療影像視覺系統(tǒng)的輸出結(jié)果是“病灶位于肺部上葉,疑似良性腫瘤”(語(yǔ)義信息+診斷提示)。
這些輸出結(jié)果,與“圖像本身”無關(guān),而是對(duì)圖像內(nèi)容的解讀和判斷,是機(jī)器“看懂”世界后的“反饋”。即使計(jì)算機(jī)視覺系統(tǒng)在處理過程中會(huì)用到圖像處理技術(shù),優(yōu)化輸入圖像的質(zhì)量,但其最終的輸出結(jié)果依然是語(yǔ)義信息或決策指令,而非優(yōu)化后的圖像——這也是兩者最核心的直觀差異。





