特征金字塔網絡(FPN):多尺度視覺任務中的特征融合架構與范式革新(二)
自上而下路徑是實現(xiàn)語義信息傳遞的關鍵,其核心是將深層高語義特征圖通過上采樣(通常為 2 倍插值)提升至與淺層特征圖相同的分辨率,使深層語義能夠 “滲透” 到淺層。例如,C5(25×25)首先經過 1×1 卷積調整通道數(如從 2048 通道降至 256 通道,降低計算量并統(tǒng)一后續(xù)融合的通道維度),再通過 2 倍上采樣生成與 C4(50×50)分辨率一致的特征圖 P5';接著,P5' 與經過同樣通道調整的 C4 特征圖進行融合,生成新的特征圖 P4;隨后,P4 再經過上采樣與通道調整后的 C3 融合生成 P3,以此類推,最終生成一組分辨率從 25×25 到 200×200(對應 P5 至 P3)的融合特征圖,構成完整的特征金字塔。這一路徑的創(chuàng)新在于打破了傳統(tǒng)特征提取中 “層級割裂” 的局限,使淺層特征圖在保留細節(jié)的同時,獲得了深層特征的語義支持,從而具備區(qū)分小目標類別的能力。
橫向連接(Lateral Connection)是確保特征融合有效性的核心設計,其作用是 “對齊” 深層上采樣特征與淺層原始特征的維度與信息分布,避免融合過程中細節(jié)信息被語義信息掩蓋。在 FPN 中,橫向連接并非簡單的特征疊加,而是先對淺層原始特征圖(如 C4)進行 1×1 卷積操作,將其通道數調整為與上采樣后的深層特征圖(如 P5')一致(如均為 256 通道),消除通道維度差異導致的融合偏差;同時,1×1 卷積還能對淺層特征進行 “語義增強”,過濾冗余細節(jié)信息,使淺層特征與深層特征的語義分布更匹配。調整后的淺層特征與上采樣深層特征通過元素相加(Element-wise Addition)進行融合,這種融合方式既能保留淺層特征中對小目標定位至關重要的細節(jié)(如邊緣坐標),又能注入深層特征中對類別判斷關鍵的語義(如 “是否為行人” 的特征),最終生成的融合特征圖(如 P4)實現(xiàn)了 “細節(jié)精準 + 語義明確” 的雙重優(yōu)勢。
FPN 的技術優(yōu)勢在多尺度視覺任務中表現(xiàn)得尤為突出,其核心競爭力體現(xiàn)在 “特征利用率”“多尺度適配性” 與 “泛化能力” 三個維度。在特征利用率方面,FPN 通過多路徑融合,充分利用了基礎網絡不同層級的特征信息 —— 傳統(tǒng)方法通常僅使用深層特征(如 Faster R-CNN 用 C5)或淺層特征(如早期 SSD 用 C3-C7 但不融合),導致部分信息浪費;而 FPN 將 C2 至 C5 的特征全部納入融合,使每一層特征都能為特定尺度目標的感知貢獻價值,特征利用率提升 30% 以上。在多尺度適配性方面,FPN 生成的特征金字塔天然適配不同尺度目標的檢測需求:金字塔頂層(P5,25×25)感受野大,適合檢測大目標(如 > 200 像素的車輛);中層(P4,50×50)適合中等目標(80-200 像素的行人);底層(P3,100×100)適合小目標(<80 像素的交通標志),這種 “分層適配” 策略使小目標檢測精度較傳統(tǒng)方法提升 20%-40%,解決了長期困擾多尺度檢測的 “小目標漏檢” 難題。





