SSD(單次多框檢測):實時目標(biāo)檢測中的多尺度融合框架與技術(shù)實踐(二)
SSD 的網(wǎng)絡(luò)結(jié)構(gòu)以經(jīng)典深度卷積網(wǎng)絡(luò)為基礎(chǔ),通過 “基礎(chǔ)網(wǎng)絡(luò) + 額外卷積層 + 多檢測層” 的架構(gòu)實現(xiàn)多尺度特征提取與檢測,其結(jié)構(gòu)設(shè)計既兼顧了特征表達能力,又通過精簡計算確保實時性。早期 SSD 采用 VGG16 作為基礎(chǔ)網(wǎng)絡(luò),VGG16 的深度卷積結(jié)構(gòu)(13 個卷積層、3 個全連接層)能夠有效提取圖像的多層級特征,但為適配檢測任務(wù),SSD 對 VGG16 進行了針對性改造:移除最后兩個全連接層與一個最大池化層,避免特征分辨率過度降低;將原本用于分類的全連接層替換為卷積層,使網(wǎng)絡(luò)輸出保持空間維度(而非向量形式),為后續(xù)多尺度特征圖提取奠定基礎(chǔ)。在基礎(chǔ)網(wǎng)絡(luò)之后,SSD 添加了多個輕量化卷積層(通常為 3×3 卷積核),這些額外卷積層的作用是逐步降低特征圖分辨率、擴大感受野,同時保持通道數(shù)穩(wěn)定(如 256 或 512 通道),最終生成 6 個不同尺度的檢測層(如 38×38、19×19、10×10 等分辨率),每個檢測層的特征圖均用于輸出分類與回歸結(jié)果。
為進一步提升實時性與適配移動端場景,后續(xù)研究者提出了 SSD 的輕量版本 ——SSD Lite,其核心是將基礎(chǔ)網(wǎng)絡(luò)從 VGG16 替換為 MobileNet(如 MobileNet v1、v2)。MobileNet 采用 “深度可分離卷積” 技術(shù),將傳統(tǒng) 3×3 卷積拆分為 “深度卷積”(逐通道卷積,提取通道內(nèi)特征)與 “點卷積”(逐點 1×1 卷積,融合通道間特征),在保持特征表達能力的前提下,將計算量與參數(shù)量降低至傳統(tǒng)卷積的 1/8~1/9。SSD Lite 的結(jié)構(gòu)設(shè)計與標(biāo)準(zhǔn) SSD 一致,但憑借 MobileNet 的輕量化特性,其推理速度較標(biāo)準(zhǔn) SSD 提升 3~5 倍,可在手機、嵌入式設(shè)備(如樹莓派、Jetson Nano)上實現(xiàn) 30fps 以上的實時檢測,為移動端目標(biāo)檢測應(yīng)用(如手機拍照識別、移動安防)提供了可行方案。
SSD 的訓(xùn)練與推理流程圍繞 “多尺度特征匹配” 與 “損失優(yōu)化” 展開,每個環(huán)節(jié)的設(shè)計均服務(wù)于精度與速度的平衡。在訓(xùn)練階段,首先需構(gòu)建包含目標(biāo)標(biāo)注(類別與邊界框坐標(biāo))的數(shù)據(jù)集(如 PASCAL VOC、COCO),并對圖像進行預(yù)處理(如 Resize 至固定尺寸,如 300×300 或 512×512;進行隨機裁剪、水平翻轉(zhuǎn)、亮度調(diào)整等數(shù)據(jù)增強,提升模型魯棒性)。隨后進行先驗框與真實框的匹配:對每個檢測層的所有先驗框,計算其與每個真實框的 IoU,將 IoU 大于閾值(通常為 0.5)的先驗框標(biāo)記為正樣本(需學(xué)習(xí)目標(biāo)類別與位置偏移),IoU 小于閾值(通常為 0.1~0.3)的標(biāo)記為負樣本(僅需學(xué)習(xí) “背景” 類別),同時為避免正負樣本比例失衡(負樣本數(shù)量遠多于正樣本),采用 “難負樣本挖掘” 策略,僅保留分類損失較大的負樣本,使正負樣本比例維持在 1:3 左右,確保訓(xùn)練過程穩(wěn)定。損失函數(shù)則分為分類損失與回歸損失兩部分:分類損失采用交叉熵損失,用于優(yōu)化目標(biāo)類別的判斷精度;回歸損失采用平滑 L1 損失,用于優(yōu)化邊界框的位置偏移,兩者通過權(quán)重系數(shù)結(jié)合,共同指導(dǎo)模型參數(shù)更新。





