Cityscapes 語義分割:城市街景理解的基準與技術(shù)演進(二)
基于 Cityscapes 數(shù)據(jù)集的語義分割技術(shù)演進,反映了計算機視覺在密集預(yù)測領(lǐng)域的整體發(fā)展脈絡(luò),從早期的全卷積網(wǎng)絡(luò)(FCN)到深度分離卷積與空洞卷積的結(jié)合,再到 Transformer 架構(gòu)的引入,每一次技術(shù)突破都在 Cityscapes 基準上得到驗證與量化。早期的語義分割方法以 FCN 為代表,其通過將全連接層替換為卷積層,實現(xiàn)了端到端的像素級分類,在 Cityscapes 上首次實現(xiàn)了自動化的城市街景語義分割,但由于僅使用單一尺度特征,對小目標(如遠處的行人、交通標志)的分割精度較低,且對邊界的處理粗糙,精細標注測試集上的 mIoU(交并比,語義分割的核心評價指標)僅約 60%。
為解決多尺度目標分割問題,特征金字塔網(wǎng)絡(luò)(FPN)與編碼器 - 解碼器結(jié)構(gòu)被廣泛應(yīng)用。編碼器通過卷積與池化操作提取多尺度特征(淺層捕捉細節(jié),深層捕捉語義),解碼器通過上采樣與跳躍連接融合不同層級特征,使模型既能識別大尺度目標(如建筑),又能定位小目標(如交通燈)。U-Net 及其變體是這一結(jié)構(gòu)的典型代表,在 Cityscapes 上通過融合多尺度特征,將 mIoU 提升至 65%-70%,尤其對道路、建筑等 stuff 類目標的分割精度顯著提高。
DeepLab 系列算法的引入進一步推動了性能提升,其核心創(chuàng)新在于空洞卷積(Atrous Convolution)與條件隨機場(CRF)的結(jié)合??斩淳矸e通過在卷積核中引入空洞(即擴大感受野而不降低分辨率),使模型在保持細節(jié)的同時捕捉全局上下文,特別適合城市街景中大面積區(qū)域(如道路、天空)的分割;CRF 作為后處理步驟,通過建模像素間的依賴關(guān)系(如相鄰像素更可能屬于同一類別),細化分割邊界,解決了 FCN 輸出的 “塊狀效應(yīng)”。DeepLab v3 + 在 Cityscapes 上的 mIoU 突破 75%,成為當時城市街景語義分割的基準模型。
近年來,Transformer 架構(gòu)憑借其強大的全局上下文建模能力,在 Cityscapes 上實現(xiàn)了新的突破。Vision Transformer(ViT)將圖像分割為 patches 并通過自注意力機制捕捉長距離依賴,能夠更好地處理城市場景中目標的復(fù)雜空間關(guān)系(如車輛與道路的位置關(guān)聯(lián)、行人與斑馬線的交互)。SegFormer、Mask2Former 等基于 Transformer 的方法,通過結(jié)合卷積的局部特征提取與 Transformer 的全局建模,在 Cityscapes 測試集上的 mIoU 達到 85% 以上,尤其對小目標(如交通標志)與復(fù)雜背景(如擁擠的行人)的分割精度提升顯著,證明了全局上下文信息對城市街景理解的重要性。
Cityscapes 語義分割的核心挑戰(zhàn)源于城市環(huán)境的動態(tài)性與復(fù)雜性,這些挑戰(zhàn)既是算法改進的驅(qū)動力,也是衡量技術(shù)實用性的關(guān)鍵指標。小目標與稀疏類別分割精度不足是最突出的問題之一 —— 城市街景中,遠處的行人、交通燈、垃圾桶等小目標僅占少數(shù)像素,且在訓(xùn)練數(shù)據(jù)中出現(xiàn)頻率低(稀疏類別),導(dǎo)致模型難以學(xué)習(xí)其判別特征。例如,Cityscapes 中的 “交通信號燈” 類別在精細標注數(shù)據(jù)中占比不足 1%,現(xiàn)有方法對其分割的 mIoU 通常低于 50%,遠低于 “道路”(mIoU 約 90%)等高頻類別。





