RetinaNet 的密集預(yù)測(cè):破解類別不平衡難題的單階段目標(biāo)檢測(cè)范式(二)
RetinaNet 中密集預(yù)測(cè)的關(guān)鍵突破在于 “Focal Loss 的設(shè)計(jì)”,它直接破解了傳統(tǒng)密集預(yù)測(cè)中類別不平衡導(dǎo)致的訓(xùn)練失效難題。在傳統(tǒng)交叉熵?fù)p失函數(shù)下,由于負(fù)樣本(背景錨點(diǎn))數(shù)量遠(yuǎn)超正樣本(目標(biāo)錨點(diǎn))(比例常達(dá) 1000:1),大量簡(jiǎn)單負(fù)樣本(如完全屬于背景的錨點(diǎn))會(huì)產(chǎn)生累積的微小損失,掩蓋少量正樣本與難分負(fù)樣本(如與目標(biāo)邊緣重疊的錨點(diǎn))的重要損失,導(dǎo)致模型訓(xùn)練偏向于 “識(shí)別背景”,而非 “區(qū)分目標(biāo)”—— 即使模型將所有樣本預(yù)測(cè)為背景,也能獲得較低的總體損失,但完全失去檢測(cè)目標(biāo)的能力。Focal Loss 的核心思想是 “動(dòng)態(tài)調(diào)整損失權(quán)重”:對(duì)簡(jiǎn)單樣本(無(wú)論是正樣本還是負(fù)樣本)賦予低權(quán)重,降低其對(duì)損失函數(shù)的貢獻(xiàn);對(duì)難分樣本賦予高權(quán)重,迫使模型聚焦于這些對(duì)檢測(cè)精度至關(guān)重要的樣本。
具體而言,Focal Loss 通過(guò)兩個(gè)機(jī)制實(shí)現(xiàn)這一目標(biāo):一是 “難度權(quán)重”,通過(guò)一個(gè)調(diào)制因子降低簡(jiǎn)單樣本的損失 —— 樣本預(yù)測(cè)概率越接近 1(越簡(jiǎn)單),調(diào)制因子越小,損失權(quán)重越低;樣本預(yù)測(cè)概率越接近 0.5(越難分),調(diào)制因子越大,損失權(quán)重越高。二是 “類別平衡權(quán)重”,在調(diào)制因子的基礎(chǔ)上,額外引入一個(gè)平衡因子,進(jìn)一步平衡正樣本與負(fù)樣本的總體損失貢獻(xiàn),避免因負(fù)樣本數(shù)量過(guò)多導(dǎo)致的損失失衡。這種損失設(shè)計(jì)使得 RetinaNet 在面對(duì) 10 萬(wàn)個(gè)錨點(diǎn)的密集預(yù)測(cè)時(shí),能夠自動(dòng)忽略 90% 以上的簡(jiǎn)單背景錨點(diǎn),將訓(xùn)練資源集中于正樣本與難分負(fù)樣本(如與小目標(biāo)邊緣重疊的錨點(diǎn)、被部分遮擋的目標(biāo)錨點(diǎn)),從而高效學(xué)習(xí)到目標(biāo)的判別特征,徹底解決了傳統(tǒng)密集預(yù)測(cè) “訓(xùn)練低效” 的核心痛點(diǎn)。
RetinaNet 的密集預(yù)測(cè)架構(gòu)還通過(guò) “統(tǒng)一預(yù)測(cè)頭” 設(shè)計(jì),確保了多尺度特征圖上預(yù)測(cè)邏輯的一致性與高效性。在生成多尺度預(yù)測(cè)特征圖(P3-P7)后,每個(gè)特征圖都連接一個(gè)結(jié)構(gòu)相同的預(yù)測(cè)頭,該預(yù)測(cè)頭分為 “分類分支” 與 “回歸分支”:分類分支負(fù)責(zé)預(yù)測(cè)每個(gè)錨點(diǎn)屬于 “背景” 或 “目標(biāo)類別”(如 COCO 數(shù)據(jù)集的 80 類),通過(guò) 1×1 卷積將特征圖通道數(shù)調(diào)整為 “類別數(shù) × 錨點(diǎn)數(shù)量”,輸出每個(gè)錨點(diǎn)的類別概率;回歸分支負(fù)責(zé)預(yù)測(cè)每個(gè)錨點(diǎn)與真實(shí)目標(biāo)框的位置偏移(如 x、y 方向的中心偏移,寬、高方向的尺寸縮放),同樣通過(guò) 1×1 卷積輸出 “4× 錨點(diǎn)數(shù)量” 的偏移量。這種統(tǒng)一的預(yù)測(cè)頭設(shè)計(jì)避免了針對(duì)不同尺度特征圖設(shè)計(jì)專用預(yù)測(cè)模塊的復(fù)雜性,同時(shí)通過(guò)共享卷積參數(shù)(部分實(shí)現(xiàn)中)降低了模型參數(shù)量,確保了密集預(yù)測(cè)的實(shí)時(shí)性 —— 即使生成 10 萬(wàn)個(gè)錨點(diǎn),統(tǒng)一預(yù)測(cè)頭的前向傳播也僅需一次多尺度并行計(jì)算,無(wú)需額外迭代,在 GPU 上可實(shí)現(xiàn) 30fps 以上的推理速度,滿足實(shí)時(shí)檢測(cè)需求。





