圖像分類的技術(shù)演進(jìn):從手工特征到深度學(xué)習(xí)的范式躍遷
圖像分類技術(shù)的發(fā)展歷程,本質(zhì)上是 “特征提取方式” 與 “分類模型” 協(xié)同優(yōu)化的過程,可清晰劃分為傳統(tǒng)手工特征時(shí)代與深度學(xué)習(xí)時(shí)代兩個(gè)階段,每個(gè)階段的技術(shù)選擇都與當(dāng)時(shí)的計(jì)算能力、數(shù)據(jù)規(guī)模緊密相關(guān)。
傳統(tǒng)手工特征時(shí)代(20 世紀(jì) 90 年代 - 2012 年)的核心思路是 “人工設(shè)計(jì)特征 + 機(jī)器學(xué)習(xí)分類器”,即通過領(lǐng)域?qū)<以O(shè)計(jì)規(guī)則提取圖像中的判別信息,再輸入傳統(tǒng)分類模型完成類別映射。這一階段的代表性特征算法包括方向梯度直方圖(HOG)、尺度不變特征變換(SIFT)、局部二值模式(LBP)等。HOG 通過統(tǒng)計(jì)圖像局部區(qū)域的梯度方向分布,突出物體的輪廓特征,在行人分類、車輛識(shí)別中表現(xiàn)出一定魯棒性;SIFT 通過構(gòu)建多尺度圖像金字塔,提取尺度不變的局部特征點(diǎn),解決了圖像縮放、旋轉(zhuǎn)帶來的特征匹配難題,成為早期圖像分類中處理尺度變化的核心工具;LBP 則通過對比像素與其鄰域的灰度差異,捕捉圖像表面的紋理特征,在人臉分類、材質(zhì)識(shí)別中廣泛應(yīng)用。
這些手工特征的設(shè)計(jì)依賴深厚的領(lǐng)域知識(shí),例如 HOG 的梯度統(tǒng)計(jì)基于 “物體輪廓是分類的關(guān)鍵” 這一經(jīng)驗(yàn)判斷,LBP 的紋理提取則源于 “表面紋理能區(qū)分不同材質(zhì)” 的觀察。分類器方面,支持向量機(jī)(SVM)、隨機(jī)森林、AdaBoost 等傳統(tǒng)機(jī)器學(xué)習(xí)模型是主流選擇,其中 SVM 通過在高維特征空間構(gòu)建最優(yōu)分類超平面,在小樣本、高維特征場景下表現(xiàn)優(yōu)異,成為手工特征時(shí)代圖像分類的 “標(biāo)配” 分類器。然而,手工特征的局限性也十分明顯:一方面,特征設(shè)計(jì)高度依賴人工經(jīng)驗(yàn),難以覆蓋復(fù)雜場景(如逆光、遮擋、形態(tài)多變的物體);另一方面,手工特征與分類器是 “分離” 的,特征提取階段無法根據(jù)分類任務(wù)的需求動(dòng)態(tài)調(diào)整,導(dǎo)致整體系統(tǒng)的泛化能力不足 —— 例如,為 “貓” 設(shè)計(jì)的 HOG 特征,可能無法有效區(qū)分 “貓” 與 “狐貍” 這類外形相似的動(dòng)物。
2012 年,AlexNet 在 ImageNet 圖像分類競賽中以絕對優(yōu)勢奪冠,標(biāo)志著圖像分類進(jìn)入深度學(xué)習(xí)時(shí)代,也開啟了 “端到端特征學(xué)習(xí)” 的新篇章。AlexNet 的核心創(chuàng)新在于用卷積神經(jīng)網(wǎng)絡(luò)(CNN)替代人工設(shè)計(jì)特征,讓模型自動(dòng)從數(shù)據(jù)中學(xué)習(xí)判別特征 ——CNN 的淺層卷積層通過小尺寸卷積核捕捉邊緣、顏色等低級特征,中層卷積層整合低級特征形成紋理、局部形狀等中級特征,深層卷積層則進(jìn)一步聚合為物體的整體輪廓、部件組合等高級語義特征,這種 “層級化特征提取” 機(jī)制與人類視覺皮層的處理邏輯高度契合,能夠自適應(yīng)不同場景下的特征需求。
此后,深度學(xué)習(xí)圖像分類模型進(jìn)入快速迭代期,每一次架構(gòu)創(chuàng)新都旨在解決前一代模型的局限:VGGNet 通過堆疊小尺寸卷積核(3×3),在加深網(wǎng)絡(luò)層數(shù)的同時(shí)提升特征提取的精細(xì)度;InceptionNet(GoogLeNet)引入多尺度卷積核并行結(jié)構(gòu),能同時(shí)捕捉不同尺寸的特征(如小卷積核提取細(xì)節(jié)、大卷積核捕捉全局),提高了特征的多樣性;ResNet(殘差網(wǎng)絡(luò))則通過引入 “殘差連接”,直接跳過部分卷積層傳遞梯度,解決了深層網(wǎng)絡(luò)訓(xùn)練時(shí)的梯度消失問題,使模型能堆疊至數(shù)百層,提取更復(fù)雜的語義特征 ——ResNet-50 在 ImageNet 上的分類錯(cuò)誤率降至 5% 以下,首次超越人類的平均識(shí)別水平。
近年來,Transformer 架構(gòu)的引入為圖像分類帶來了新的突破。傳統(tǒng) CNN 依賴局部感受野,難以捕捉圖像中長距離的特征關(guān)聯(lián)(如 “貓的頭部” 與 “貓的尾巴” 之間的聯(lián)系),而 Vision Transformer(ViT)通過將圖像分割為固定大小的 “視覺 token”(類似自然語言處理中的單詞),再利用自注意力機(jī)制建模不同 token 之間的全局依賴,打破了局部感受野的限制。在大規(guī)模數(shù)據(jù)集(如 JFT-300M)的預(yù)訓(xùn)練支持下,ViT 及其變體(如 Swin Transformer、ViT-G)在圖像分類精度上持續(xù)突破,尤其在細(xì)粒度分類(如區(qū)分不同品種的花卉、鳥類)中表現(xiàn)出更強(qiáng)的語義理解能力,成為當(dāng)前圖像分類的主流架構(gòu)之一。





