特征金字塔網(wǎng)絡(FPN):多尺度視覺任務中的特征融合架構與范式革新(一)
在計算機視覺領域,多尺度目標的精準感知始終是核心挑戰(zhàn)之一 —— 圖像中既包含尺寸微小的細節(jié)目標(如遠處的行人、圖像中的文字),也存在占據(jù)大面積的宏觀目標(如近處的車輛、建筑),而傳統(tǒng)特征提取方法難以同時滿足不同尺度目標對 “細節(jié)信息” 與 “語義信息” 的雙重需求。早期解決方案如圖像金字塔雖能通過縮放圖像生成多尺度特征,但計算量呈指數(shù)級增長,難以適配實時場景;單一深層特征圖雖語義信息豐富,卻因分辨率低丟失細節(jié),導致小目標檢測精度驟降;淺層特征圖雖保留細節(jié),卻缺乏語義區(qū)分能力,無法有效識別目標類別。正是在這一技術困境下,特征金字塔網(wǎng)絡(Feature Pyramid Network, FPN)于 2016 年由 Facebook AI Research(FAIR)提出,其創(chuàng)新性地構建了 “自上而下特征融合 + 橫向連接” 的架構,實現(xiàn)了多尺度特征的高效融合與協(xié)同利用,既保留了淺層特征的細節(jié)信息,又注入了深層特征的語義信息,為目標檢測、實例分割、語義分割等多尺度任務提供了統(tǒng)一的特征提取范式。本文將系統(tǒng)闡述 FPN 的核心原理、架構設計、技術優(yōu)勢及在多領域的應用與演進,揭示其在現(xiàn)代計算機視覺技術體系中的基礎性地位與革新價值。
FPN 的核心設計思想源于對 “多尺度特征互補性” 的深刻洞察:深層卷積特征圖(如 ResNet 的 C5 層)經(jīng)過多次下采樣,感受野大、語義信息豐富,能夠有效區(qū)分目標類別,但分辨率低(通常為輸入圖像的 1/32),細節(jié)信息(如目標邊緣、紋理)丟失嚴重,對小目標的定位能力弱;淺層特征圖(如 ResNet 的 C2 層)分辨率高(輸入圖像的 1/4),細節(jié)信息完整,能精準捕捉小目標的空間位置,但感受野小、語義信息匱乏,難以區(qū)分目標與背景(如將樹葉誤判為小目標)。FPN 的目標便是通過架構設計,將深層特征的語義優(yōu)勢與淺層特征的細節(jié)優(yōu)勢結合,生成一組 “語義 - 細節(jié)均衡” 的多尺度特征金字塔,使金字塔的每一層都具備足夠的語義區(qū)分能力與空間定位精度,從而適配不同尺度目標的感知需求。
FPN 的架構由 “自下而上路徑”“自上而下路徑” 與 “橫向連接” 三部分構成,三者協(xié)同實現(xiàn)多尺度特征的融合與傳遞。自下而上路徑是特征提取的基礎,通?;陬A訓練的深度卷積網(wǎng)絡(如 ResNet、MobileNet)構建,其核心是通過卷積與池化操作逐步降低特征圖分辨率、擴大感受野,同時提取層級化的特征信息。以 ResNet-50 為例,自下而上路徑從輸入圖像(如 800×800 像素)開始,經(jīng)過卷積層與殘差塊的堆疊,生成 5 組特征圖(C1 至 C5):C1 分辨率為 400×400(1/2 下采樣),以細節(jié)信息為主;C2 為 200×200(1/4),開始具備初步語義;C3 為 100×100(1/8),語義信息增強;C4 為 50×50(1/16),語義與細節(jié)平衡;C5 為 25×25(1/32),語義信息最豐富,但細節(jié)最少。這一路徑的作用是為后續(xù)融合提供 “原始特征素材”,確保不同層級的特征圖包含從細節(jié)到語義的完整信息譜系。





