SSD(單次多框檢測(cè)):實(shí)時(shí)目標(biāo)檢測(cè)中的多尺度融合框架與技術(shù)實(shí)踐(二)
SSD 的網(wǎng)絡(luò)結(jié)構(gòu)以經(jīng)典深度卷積網(wǎng)絡(luò)為基礎(chǔ),通過(guò) “基礎(chǔ)網(wǎng)絡(luò) + 額外卷積層 + 多檢測(cè)層” 的架構(gòu)實(shí)現(xiàn)多尺度特征提取與檢測(cè),其結(jié)構(gòu)設(shè)計(jì)既兼顧了特征表達(dá)能力,又通過(guò)精簡(jiǎn)計(jì)算確保實(shí)時(shí)性。早期 SSD 采用 VGG16 作為基礎(chǔ)網(wǎng)絡(luò),VGG16 的深度卷積結(jié)構(gòu)(13 個(gè)卷積層、3 個(gè)全連接層)能夠有效提取圖像的多層級(jí)特征,但為適配檢測(cè)任務(wù),SSD 對(duì) VGG16 進(jìn)行了針對(duì)性改造:移除最后兩個(gè)全連接層與一個(gè)最大池化層,避免特征分辨率過(guò)度降低;將原本用于分類的全連接層替換為卷積層,使網(wǎng)絡(luò)輸出保持空間維度(而非向量形式),為后續(xù)多尺度特征圖提取奠定基礎(chǔ)。在基礎(chǔ)網(wǎng)絡(luò)之后,SSD 添加了多個(gè)輕量化卷積層(通常為 3×3 卷積核),這些額外卷積層的作用是逐步降低特征圖分辨率、擴(kuò)大感受野,同時(shí)保持通道數(shù)穩(wěn)定(如 256 或 512 通道),最終生成 6 個(gè)不同尺度的檢測(cè)層(如 38×38、19×19、10×10 等分辨率),每個(gè)檢測(cè)層的特征圖均用于輸出分類與回歸結(jié)果。
為進(jìn)一步提升實(shí)時(shí)性與適配移動(dòng)端場(chǎng)景,后續(xù)研究者提出了 SSD 的輕量版本 ——SSD Lite,其核心是將基礎(chǔ)網(wǎng)絡(luò)從 VGG16 替換為 MobileNet(如 MobileNet v1、v2)。MobileNet 采用 “深度可分離卷積” 技術(shù),將傳統(tǒng) 3×3 卷積拆分為 “深度卷積”(逐通道卷積,提取通道內(nèi)特征)與 “點(diǎn)卷積”(逐點(diǎn) 1×1 卷積,融合通道間特征),在保持特征表達(dá)能力的前提下,將計(jì)算量與參數(shù)量降低至傳統(tǒng)卷積的 1/8~1/9。SSD Lite 的結(jié)構(gòu)設(shè)計(jì)與標(biāo)準(zhǔn) SSD 一致,但憑借 MobileNet 的輕量化特性,其推理速度較標(biāo)準(zhǔn) SSD 提升 3~5 倍,可在手機(jī)、嵌入式設(shè)備(如樹(shù)莓派、Jetson Nano)上實(shí)現(xiàn) 30fps 以上的實(shí)時(shí)檢測(cè),為移動(dòng)端目標(biāo)檢測(cè)應(yīng)用(如手機(jī)拍照識(shí)別、移動(dòng)安防)提供了可行方案。
SSD 的訓(xùn)練與推理流程圍繞 “多尺度特征匹配” 與 “損失優(yōu)化” 展開(kāi),每個(gè)環(huán)節(jié)的設(shè)計(jì)均服務(wù)于精度與速度的平衡。在訓(xùn)練階段,首先需構(gòu)建包含目標(biāo)標(biāo)注(類別與邊界框坐標(biāo))的數(shù)據(jù)集(如 PASCAL VOC、COCO),并對(duì)圖像進(jìn)行預(yù)處理(如 Resize 至固定尺寸,如 300×300 或 512×512;進(jìn)行隨機(jī)裁剪、水平翻轉(zhuǎn)、亮度調(diào)整等數(shù)據(jù)增強(qiáng),提升模型魯棒性)。隨后進(jìn)行先驗(yàn)框與真實(shí)框的匹配:對(duì)每個(gè)檢測(cè)層的所有先驗(yàn)框,計(jì)算其與每個(gè)真實(shí)框的 IoU,將 IoU 大于閾值(通常為 0.5)的先驗(yàn)框標(biāo)記為正樣本(需學(xué)習(xí)目標(biāo)類別與位置偏移),IoU 小于閾值(通常為 0.1~0.3)的標(biāo)記為負(fù)樣本(僅需學(xué)習(xí) “背景” 類別),同時(shí)為避免正負(fù)樣本比例失衡(負(fù)樣本數(shù)量遠(yuǎn)多于正樣本),采用 “難負(fù)樣本挖掘” 策略,僅保留分類損失較大的負(fù)樣本,使正負(fù)樣本比例維持在 1:3 左右,確保訓(xùn)練過(guò)程穩(wěn)定。損失函數(shù)則分為分類損失與回歸損失兩部分:分類損失采用交叉熵?fù)p失,用于優(yōu)化目標(biāo)類別的判斷精度;回歸損失采用平滑 L1 損失,用于優(yōu)化邊界框的位置偏移,兩者通過(guò)權(quán)重系數(shù)結(jié)合,共同指導(dǎo)模型參數(shù)更新。





