隨著深度學(xué)習(xí)技術(shù)的不斷迭代,出現(xiàn)了一系列適用于特征提取的經(jīng)典CNN模型,從淺層CNN(AlexNet)到深層CNN(ResNet、VGG),再到CNN與Transformer融合的模型(Swin Transformer),各類(lèi)模型的特征提取能力不斷提升,適配的場(chǎng)景也不斷拓展,以下詳細(xì)拆解各類(lèi)經(jīng)典模型的特征提取原理及應(yīng)用場(chǎng)景。
1. AlexNet:深度學(xué)習(xí)特征提取的開(kāi)創(chuàng)性模型,2012年由Hinton團(tuán)隊(duì)提出,包含5個(gè)卷積層、3個(gè)池化層、2個(gè)全連接層,是第一個(gè)將深度學(xué)習(xí)應(yīng)用于圖像特征提取和分類(lèi)的模型,徹底打破了傳統(tǒng)特征提取技術(shù)的局限。其特征提取原理是:通過(guò)淺層卷積層(第1-2層)提取圖像的邊緣、角點(diǎn)等底層特征,采用ReLU激活函數(shù)解決傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的梯度消失問(wèn)題,通過(guò)Dropout技術(shù)解決過(guò)擬合問(wèn)題;通過(guò)中層卷積層(第3-5層)提取圖像的紋理、局部部件等中層特征,逐步實(shí)現(xiàn)特征的抽象;通過(guò)全連接層,將中層特征融合為高層語(yǔ)義特征,輸出特征向量,用于后續(xù)分類(lèi)任務(wù)。AlexNet的優(yōu)勢(shì)是首次實(shí)現(xiàn)了模型自主學(xué)習(xí)特征,提取的特征具備較強(qiáng)的區(qū)分性和抗干擾能力,在ImageNet數(shù)據(jù)集上的Top-5錯(cuò)誤率降至16.4%,遠(yuǎn)超傳統(tǒng)方法;局限性是網(wǎng)絡(luò)層數(shù)較淺(僅5個(gè)卷積層),特征提取能力有限,無(wú)法捕捉復(fù)雜目標(biāo)的深層語(yǔ)義特征,且對(duì)海量數(shù)據(jù)的依賴(lài)較強(qiáng)。AlexNet的應(yīng)用場(chǎng)景主要是簡(jiǎn)單圖像分類(lèi)、基礎(chǔ)目標(biāo)識(shí)別(如簡(jiǎn)單物體分類(lèi)),為后續(xù)深度學(xué)習(xí)特征提取模型的發(fā)展奠定了基礎(chǔ)。
2. VGGNet:2014年由牛津大學(xué)提出,核心改進(jìn)是“更深的網(wǎng)絡(luò)層數(shù)+更小的卷積核”,包含16-19個(gè)卷積層、5個(gè)池化層、3個(gè)全連接層,卷積核主要采用3×3的小卷積核,通過(guò)多個(gè)小卷積核的疊加,替代傳統(tǒng)的大卷積核,提升特征提取的精度。其特征提取原理是:通過(guò)更多的卷積層,實(shí)現(xiàn)特征的分層抽象,淺層卷積層提取底層視覺(jué)特征,中層卷積層提取中層特征,深層卷積層提取高層語(yǔ)義特征;3×3小卷積核的優(yōu)勢(shì)是能夠捕捉更細(xì)微的特征,同時(shí)減少網(wǎng)絡(luò)參數(shù),提升計(jì)算效率;通過(guò)連續(xù)的卷積和池化操作,逐步降低特征圖的維度,保留核心特征。VGGNet的優(yōu)勢(shì)是特征提取精度高,能夠捕捉更復(fù)雜的局部特征和中層特征,泛化能力比AlexNet更強(qiáng);局限性是網(wǎng)絡(luò)層數(shù)加深,導(dǎo)致計(jì)算量大幅增加,容易出現(xiàn)梯度消失問(wèn)題,且參數(shù)數(shù)量較多(約1.38億),訓(xùn)練成本高。VGGNet的應(yīng)用場(chǎng)景主要是高精度圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割的特征提取 backbone(基礎(chǔ)網(wǎng)絡(luò)),例如,在醫(yī)療影像分類(lèi)、工業(yè)零件高精度質(zhì)檢等場(chǎng)景中,常用VGGNet作為特征提取 backbone,提取精準(zhǔn)的圖像特征。
3. ResNet(殘差網(wǎng)絡(luò)):2015年由微軟團(tuán)隊(duì)提出,核心改進(jìn)是引入“殘差連接(Skip Connection)”技術(shù),解決了深層網(wǎng)絡(luò)的梯度消失、梯度爆炸問(wèn)題,將網(wǎng)絡(luò)層數(shù)提升至152層,甚至上千層,徹底打破了“網(wǎng)絡(luò)層數(shù)無(wú)法無(wú)限加深”的瓶頸。其特征提取原理是:在傳統(tǒng)CNN的卷積層之間,引入殘差連接,將淺層卷積層的輸出直接連接到深層卷積層的輸入,讓深層網(wǎng)絡(luò)能夠?qū)W習(xí)到“殘差”(即深層特征與淺層特征的差異),從而避免梯度消失;通過(guò)深層卷積層的疊加,實(shí)現(xiàn)特征的深度抽象,提取更精準(zhǔn)、更具區(qū)分性的高層語(yǔ)義特征;同時(shí),采用Batch Normalization技術(shù),加速網(wǎng)絡(luò)訓(xùn)練,提升特征的穩(wěn)定性。ResNet的優(yōu)勢(shì)是特征提取能力極強(qiáng),能夠捕捉復(fù)雜目標(biāo)的深層語(yǔ)義特征,泛化能力和抗干擾能力遠(yuǎn)超AlexNet、VGGNet,在ImageNet數(shù)據(jù)集上的Top-5錯(cuò)誤率降至3.57%,首次低于人類(lèi)的5.1%;局限性是計(jì)算量和參數(shù)數(shù)量較大,訓(xùn)練需要強(qiáng)大的算力支撐。ResNet的應(yīng)用場(chǎng)景非常廣泛,是目前計(jì)算機(jī)視覺(jué)領(lǐng)域最常用的特征提取 backbone,適用于高精度目標(biāo)識(shí)別、語(yǔ)義分割、目標(biāo)跟蹤、3D視覺(jué)、醫(yī)療影像分析等復(fù)雜場(chǎng)景,例如,自動(dòng)駕駛中的目標(biāo)檢測(cè)、醫(yī)學(xué)影像中的病灶識(shí)別、工業(yè)領(lǐng)域的復(fù)雜缺陷檢測(cè)等。
4. MobileNet:2017年由Google提出,核心改進(jìn)是采用“深度可分離卷積”技術(shù),實(shí)現(xiàn)了模型的輕量化,解決了深層CNN計(jì)算量大、部署困難的問(wèn)題,適用于移動(dòng)端、邊緣設(shè)備等算力有限的場(chǎng)景。其特征提取原理是:將傳統(tǒng)的3×3卷積拆分為“深度卷積”和“點(diǎn)卷積”,深度卷積負(fù)責(zé)對(duì)每個(gè)通道的特征圖進(jìn)行單獨(dú)卷積,提取單通道的局部特征;點(diǎn)卷積負(fù)責(zé)將多個(gè)通道的特征進(jìn)行融合,提取多通道的綜合特征,通過(guò)這種拆分,大幅減少網(wǎng)絡(luò)參數(shù)和計(jì)算量(參數(shù)數(shù)量?jī)H為VGGNet的1/32),同時(shí)保留核心特征提取能力;通過(guò)輕量化的卷積和池化操作,實(shí)現(xiàn)淺層到深層特征的分層提取,兼顧特征提取精度和實(shí)時(shí)性。MobileNet的優(yōu)勢(shì)是輕量化、速度快,計(jì)算量小,能夠部署在移動(dòng)端、邊緣設(shè)備上,同時(shí)具備較強(qiáng)的特征提取能力;局限性是特征提取精度略低于ResNet、VGGNet,適用于對(duì)實(shí)時(shí)性要求高、算力有限的場(chǎng)景。MobileNet的應(yīng)用場(chǎng)景主要是移動(dòng)端視覺(jué)應(yīng)用(如手機(jī)人臉識(shí)別、移動(dòng)端目標(biāo)檢測(cè))、邊緣設(shè)備視覺(jué)應(yīng)用(如智能門(mén)鎖、邊緣監(jiān)控)、實(shí)時(shí)目標(biāo)跟蹤等,例如,手機(jī)端的人臉解鎖、智能攝像頭的實(shí)時(shí)行人檢測(cè)等,都采用MobileNet作為特征提取模型。
5. Swin Transformer:2021年由Microsoft提出,核心改進(jìn)是將Transformer架構(gòu)與CNN的局部特征提取優(yōu)勢(shì)相結(jié)合,解決了傳統(tǒng)CNN難以捕捉長(zhǎng)距離全局關(guān)聯(lián)的局限,實(shí)現(xiàn)了全局語(yǔ)義特征的精準(zhǔn)提取。其特征提取原理是:將原始圖像分割成一系列固定大小的圖像塊,將每個(gè)圖像塊視為一個(gè)“詞元”,通過(guò)Transformer的自注意力機(jī)制,捕捉圖像塊之間的全局關(guān)聯(lián),實(shí)現(xiàn)全局語(yǔ)義特征的提取;同時(shí),引入“分層特征圖”和“移動(dòng)窗口”機(jī)制,將自注意力計(jì)算限制在局部窗口內(nèi),并允許跨窗口的信息交流,大幅降低計(jì)算復(fù)雜度,兼顧全局關(guān)聯(lián)和局部特征提?。煌ㄟ^(guò)分層結(jié)構(gòu),實(shí)現(xiàn)從底層圖像塊特征到高層全局語(yǔ)義特征的抽象,提取的特征具備更強(qiáng)的全局關(guān)聯(lián)性和區(qū)分性。Swin Transformer的優(yōu)勢(shì)是能夠捕捉圖像的全局關(guān)聯(lián)特征,解決了傳統(tǒng)CNN局部性的局限,特征提取精度高,適用于復(fù)雜場(chǎng)景的視覺(jué)任務(wù);局限性是計(jì)算量較大,部署門(mén)檻較高。Swin Transformer的應(yīng)用場(chǎng)景主要是復(fù)雜語(yǔ)義分割、高精度目標(biāo)檢測(cè)、3D視覺(jué)、多模態(tài)融合等場(chǎng)景,例如,城市遙感圖像的語(yǔ)義分割、自動(dòng)駕駛中的復(fù)雜場(chǎng)景理解、醫(yī)療影像的精準(zhǔn)分割等。