2012年,AlexNet在ImageNet圖像分類競(jìng)賽中以碾壓性優(yōu)勢(shì)擊敗傳統(tǒng)方法,宣告深度學(xué)習(xí)正式進(jìn)入計(jì)算機(jī)視覺領(lǐng)域,也徹底改變了特征提取技術(shù)的發(fā)展格局——從“人工設(shè)計(jì)特征”轉(zhuǎn)向“模型自主學(xué)習(xí)特征”。深度學(xué)習(xí)特征提取技術(shù)的核心邏輯是:依托深度神經(jīng)網(wǎng)絡(luò)(主要是卷積神經(jīng)網(wǎng)絡(luò)CNN),模擬人類視覺皮層的層級(jí)結(jié)構(gòu),通過海量標(biāo)注數(shù)據(jù)的訓(xùn)練,自主從原始圖像中學(xué)習(xí)從淺層到深層、從局部到全局的特征,無需人工設(shè)計(jì)特征描述子,提取的特征具備更強(qiáng)的區(qū)分性、穩(wěn)定性和代表性,能夠捕捉目標(biāo)的深層語義信息,適配復(fù)雜場(chǎng)景的應(yīng)用需求。
深度學(xué)習(xí)特征提取技術(shù)的核心載體是卷積神經(jīng)網(wǎng)絡(luò)(CNN),其核心機(jī)制(局部感受野、權(quán)值共享、池化操作)決定了其能夠高效提取圖像特征,以下先拆解CNN的核心機(jī)制,再詳細(xì)剖析不同深度學(xué)習(xí)模型的特征提取原理,以及各類模型的應(yīng)用場(chǎng)景。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度學(xué)習(xí)特征提取的核心架構(gòu),其與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的最大區(qū)別在于,能夠利用圖像的空間關(guān)聯(lián)性,高效提取圖像特征,同時(shí)通過權(quán)值共享和池化操作,大幅降低計(jì)算復(fù)雜度,避免過擬合。CNN的特征提取機(jī)制主要依托三大核心組件,三者協(xié)同作用,實(shí)現(xiàn)從原始像素到深層語義特征的分層提?。?
1. 局部感受野:模擬人類視覺系統(tǒng)的感知特點(diǎn)——人類視覺系統(tǒng)對(duì)圖像的感知是局部的,再逐步整合為全局感知,CNN中的卷積層通過設(shè)置局部感受野,讓每個(gè)卷積核只關(guān)注原始圖像中的一個(gè)局部區(qū)域(如3×3、5×5像素),通過卷積運(yùn)算,提取該局部區(qū)域的淺層特征(如邊緣、紋理)。不同的卷積核負(fù)責(zé)提取不同類型的局部特征,例如,有的卷積核專門提取邊緣特征,有的專門提取紋理特征,多個(gè)卷積核協(xié)同作用,能夠提取圖像中多維度的局部特征。局部感受野的優(yōu)勢(shì)是能夠有效捕捉圖像的局部空間關(guān)聯(lián),避免冗余信息的干擾,同時(shí)降低計(jì)算復(fù)雜度。
2. 權(quán)值共享:在同一個(gè)卷積層中,所有卷積核的權(quán)重參數(shù)是相同的,即同一個(gè)卷積核在整個(gè)圖像中重復(fù)使用,對(duì)圖像的不同局部區(qū)域進(jìn)行卷積運(yùn)算。權(quán)值共享的核心優(yōu)勢(shì)是大幅減少網(wǎng)絡(luò)的參數(shù)數(shù)量,降低計(jì)算復(fù)雜度和過擬合風(fēng)險(xiǎn)——例如,一個(gè)3×3的卷積核,若不采用權(quán)值共享,對(duì)于一張100×100的灰度圖像,需要100×100×3×3個(gè)參數(shù);而采用權(quán)值共享后,僅需要3×3個(gè)參數(shù),參數(shù)數(shù)量大幅減少,同時(shí)確保了同一類特征在整個(gè)圖像中的提取標(biāo)準(zhǔn)一致,提升特征的穩(wěn)定性。
3. 池化操作:通常位于卷積層之后,核心作用是對(duì)卷積層提取的特征圖進(jìn)行下采樣,保留核心特征,剔除冗余信息,降低特征圖的維度,進(jìn)一步減少計(jì)算量,同時(shí)提升特征的抗干擾能力(如平移不變性、縮放不變性)。常用的池化操作主要有兩種:最大池化和平均池化。最大池化是選取特征圖中每個(gè)局部區(qū)域(如2×2像素)的最大值作為該區(qū)域的輸出特征,能夠保留局部區(qū)域的最強(qiáng)特征,提升特征的區(qū)分性,適用于需要捕捉關(guān)鍵特征的場(chǎng)景(如目標(biāo)識(shí)別);平均池化是選取特征圖中每個(gè)局部區(qū)域的平均值作為該區(qū)域的輸出特征,能夠保留局部區(qū)域的整體特征,提升特征的穩(wěn)定性,適用于需要捕捉全局紋理特征的場(chǎng)景(如紋理分類)。
基于以上三大核心機(jī)制,CNN的特征提取過程呈現(xiàn)“分層抽象”的特點(diǎn),從輸入層到輸出層,特征逐步從淺層視覺特征向深層語義特征升華,具體可分為三個(gè)層次:
第一層:底層特征提取層(淺層卷積層+池化層),主要提取圖像的底層視覺特征,如像素的亮度、顏色、邊緣、角點(diǎn)等,與傳統(tǒng)特征提取技術(shù)提取的特征類似,但提取的特征更細(xì)膩、更穩(wěn)定,抗干擾能力更強(qiáng)。例如,CNN的第一層卷積層通常提取邊緣特征,與Canny算子、Sobel算子提取的邊緣特征相比,能夠更好地抑制噪聲干擾,捕捉更細(xì)微的邊緣。
第二層:中層特征提取層(中層卷積層+池化層),將底層提取的淺層特征進(jìn)行組合、整合,形成更具區(qū)分性的中層特征,如物體的紋理、輪廓、局部部件(如人臉的五官、車輛的車輪)等。例如,中層卷積層會(huì)將底層提取的邊緣特征組合成人臉的五官輪廓,將紋理特征組合成物體的表面紋理,實(shí)現(xiàn)特征的初步抽象。
第三層:高層特征提取層(深層卷積層+全連接層),將中層特征進(jìn)一步抽象、融合,形成能夠表征目標(biāo)語義的高層特征,如“這是一張人臉”“這是一輛汽車”“這是一個(gè)場(chǎng)景”等,實(shí)現(xiàn)從“像素特征”到“語義特征”的跨越。高層特征具備極強(qiáng)的區(qū)分性和代表性,能夠有效區(qū)分不同類別的目標(biāo),甚至能夠捕捉目標(biāo)的抽象屬性(如目標(biāo)的姿態(tài)、狀態(tài)),這也是深度學(xué)習(xí)特征提取技術(shù)優(yōu)于傳統(tǒng)技術(shù)的核心原因。