RetinaNet 的密集預(yù)測:破解類別不平衡難題的單階段目標檢測范式(一)
在目標檢測技術(shù)的演進歷程中,“密集預(yù)測” 始終是實現(xiàn)高精度與實時性平衡的核心方向之一 —— 其核心邏輯是在圖像的全空間范圍內(nèi)生成預(yù)測,通過密集覆蓋潛在目標位置,減少漏檢風(fēng)險。然而,傳統(tǒng)單階段密集預(yù)測算法(如 YOLO v1、SSD)長期面臨 “類別不平衡” 的致命瓶頸:密集的預(yù)測位置中,絕大多數(shù)屬于背景(負樣本),僅有極少數(shù)是目標(正樣本),這種極端失衡導(dǎo)致模型訓(xùn)練偏向于簡單負樣本,對難分目標(如小目標、遮擋目標)的學(xué)習(xí)不足,最終精度遠低于兩階段算法(如 Faster R-CNN)。正是在這一技術(shù)困境下,RetinaNet 于 2017 年被提出,其創(chuàng)新性地將 “特征金字塔網(wǎng)絡(luò)(FPN)” 與 “Focal Loss” 深度結(jié)合,既通過 FPN 構(gòu)建了支持多尺度目標的密集預(yù)測架構(gòu),又通過 Focal Loss 解決了類別不平衡導(dǎo)致的訓(xùn)練低效問題,首次實現(xiàn)了單階段密集預(yù)測算法在精度上超越兩階段算法,為后續(xù)單階段目標檢測的爆發(fā)式發(fā)展奠定了范式基礎(chǔ)。本文將系統(tǒng)闡述 RetinaNet 中密集預(yù)測的技術(shù)原理、實現(xiàn)架構(gòu)、性能突破及應(yīng)用價值,揭示其在目標檢測技術(shù)演進中的里程碑意義。
RetinaNet 中密集預(yù)測的核心前提是構(gòu)建 “多尺度特征表達體系”,而這一體系的實現(xiàn)依賴于特征金字塔網(wǎng)絡(luò)(FPN)的引入。在傳統(tǒng)單階段算法(如 SSD)中,雖也利用多尺度特征圖進行檢測,但不同層級的特征圖相互獨立,淺層特征圖(負責(zé)小目標)缺乏深層語義信息支撐,對小目標的類別區(qū)分能力有限;深層特征圖(負責(zé)大目標)雖語義豐富,但分辨率低,對目標細節(jié)的捕捉不足。RetinaNet 的 FPN 架構(gòu)則通過 “自上而下的特征融合” 與 “橫向連接”,打破了這種層級割裂:首先,基礎(chǔ)網(wǎng)絡(luò)(如 ResNet)自下而上提取特征,生成不同分辨率的特征圖(稱為 “骨干特征圖”),淺層特征圖(如 C2)分辨率高、感受野小,深層特征圖(如 C5)分辨率低、感受野大;隨后,自上而下的路徑將深層高語義特征圖(如 C5)通過上采樣(如 2 倍插值)提升至與淺層特征圖相同分辨率,同時通過橫向連接將骨干網(wǎng)絡(luò)中對應(yīng)層級的淺層特征圖(如 C4)與上采樣后的深層特征圖融合 —— 這種融合既保留了淺層特征圖的細節(jié)信息(如小目標的邊緣、紋理),又補充了深層特征圖的語義信息(如小目標的類別特征),最終生成一組 “語義 - 細節(jié)均衡” 的多尺度特征圖(稱為 “預(yù)測特征圖”,如 P3 至 P7)。
這組預(yù)測特征圖構(gòu)成了 RetinaNet 密集預(yù)測的 “空間基座”:每個預(yù)測特征圖對應(yīng)特定尺度的目標,P3(分辨率最高)負責(zé)檢測小目標(如 32×32 像素以下),P7(分辨率最低)負責(zé)檢測大目標(如 256×256 像素以上),中間層級(P4、P5、P6)覆蓋中等尺度目標;同時,每個預(yù)測特征圖上的每個空間位置都作為預(yù)測單元,生成多個不同寬高比的錨點(Anchor),這些錨點以密集網(wǎng)格的形式覆蓋整個圖像空間 —— 例如,每個位置生成 9 個錨點(3 種尺度 ×3 種寬高比),一張 512×512 輸入圖像最終會生成超過 10 萬個錨點,這種 “全尺度 + 全空間” 的錨點覆蓋,確保了對圖像中任意位置、任意尺度目標的密集捕捉,從根本上解決了傳統(tǒng)算法對小目標、邊緣目標的漏檢問題。





