Cityscapes 語義分割:城市街景理解的基準(zhǔn)與技術(shù)演進(jìn)(一)
城市街景語義分割作為計算機(jī)視覺與智能交通領(lǐng)域的核心任務(wù),旨在將城市場景圖像中的每個像素精確分類為預(yù)定義的語義類別(如道路、建筑、車輛、行人等),為自動駕駛的環(huán)境感知、智能城市的交通監(jiān)控、城市規(guī)劃的數(shù)據(jù)分析等應(yīng)用提供細(xì)粒度的場景理解基礎(chǔ)。然而,城市環(huán)境的復(fù)雜性 —— 包括多樣的目標(biāo)尺度(從遠(yuǎn)處的行人到近處的建筑)、頻繁的遮擋(如車輛遮擋行人)、動態(tài)的光照變化(如晴天與陰天、白天與黃昏)以及復(fù)雜的背景干擾(如廣告牌、植被)—— 使得語義分割面臨嚴(yán)峻挑戰(zhàn)。正是在這一背景下,Cityscapes 數(shù)據(jù)集于 2016 年由德國馬克斯?普朗克研究所等機(jī)構(gòu)聯(lián)合發(fā)布,其通過大規(guī)模、高質(zhì)量的城市街景標(biāo)注數(shù)據(jù),為語義分割算法的訓(xùn)練、評估與對比提供了統(tǒng)一基準(zhǔn),極大推動了城市場景理解技術(shù)的發(fā)展。本文將系統(tǒng)闡述 Cityscapes 數(shù)據(jù)集的構(gòu)建特點(diǎn)、基于該數(shù)據(jù)集的語義分割技術(shù)演進(jìn)、核心挑戰(zhàn)及應(yīng)用價值,揭示其在城市街景語義分割領(lǐng)域的基礎(chǔ)性地位與推動作用。
Cityscapes 數(shù)據(jù)集的核心價值在于其對城市街景場景的全面覆蓋與標(biāo)注的精細(xì)性,這為語義分割算法提供了貼近真實應(yīng)用的訓(xùn)練與評估基礎(chǔ)。該數(shù)據(jù)集的圖像采集自 50 個不同規(guī)模的城市(涵蓋歐洲、北美等地),包含多種典型城市環(huán)境:從繁華的市中心(密集的建筑、復(fù)雜的交通流)到郊區(qū)道路(開闊的視野、較少的行人),從商業(yè)區(qū)(高樓、廣告牌)到住宅區(qū)(低層建筑、綠化帶),確保了數(shù)據(jù)的多樣性與代表性。數(shù)據(jù)采集采用車載攝像頭,視角貼近自動駕駛系統(tǒng)的實際感知視角,圖像分辨率統(tǒng)一為 1024×2048,包含靜態(tài)場景與動態(tài)目標(biāo)的豐富交互(如車輛行駛、行人過馬路)。
更關(guān)鍵的是其標(biāo)注體系的層次性與精確性。Cityscapes 提供兩種層級的標(biāo)注:粗標(biāo)注(coarse annotations)與精細(xì)標(biāo)注(fine annotations)。粗標(biāo)注包含 20000 張圖像,覆蓋 19 個城市的多樣場景,采用自動化工具輔助標(biāo)注,適合大規(guī)模預(yù)訓(xùn)練;精細(xì)標(biāo)注包含 5000 張圖像(其中 2975 張用于訓(xùn)練,500 張用于驗證,1525 張用于測試),來自 30 個城市,由專業(yè)標(biāo)注人員手動完成,包含 30 個語義類別(后續(xù)擴(kuò)展至 34 類),細(xì)分為 “事物類”(如車輛、行人等可移動目標(biāo))與 “stuff 類”(如道路、天空等背景區(qū)域)。標(biāo)注不僅精確到像素級別,還對遮擋區(qū)域、模糊邊界進(jìn)行了細(xì)致處理,例如對部分遮擋的車輛,標(biāo)注人員會根據(jù)可見輪廓補(bǔ)全語義邊界,確保像素分類的準(zhǔn)確性。這種精細(xì)標(biāo)注為算法學(xué)習(xí)復(fù)雜場景中的細(xì)節(jié)特征(如車道線、路燈與樹木的區(qū)分)提供了可靠監(jiān)督信號。





