掩碼重建:自監(jiān)督學(xué)習(xí)中的特征學(xué)習(xí)范式與視覺任務(wù)革新(二)
隨著 Transformer 在自然語言處理中的成功,研究者將 “掩碼語言模型”(Masked Language Model)的思想引入計算機視覺,推動掩碼重建進(jìn)入 “密集掩碼 + 特征重建” 的新階段。以掩碼自編碼器(MAE)為例,其創(chuàng)新性地采用高達(dá) 75% 的密集掩碼比例,隨機遮擋圖像中大部分區(qū)域(以非重疊塊為單位),僅保留 25% 的可見塊;編碼器僅處理可見塊,大幅降低計算成本;解碼器則基于編碼器輸出的特征與掩碼位置信息,重建被遮擋塊的像素值。MAE 的密集掩碼策略迫使模型依賴全局上下文進(jìn)行重建,避免了對局部像素相關(guān)性的過度依賴,從而學(xué)習(xí)到更豐富的語義特征 —— 例如,重建被遮擋的 “貓爪” 時,模型需要結(jié)合 “貓的身體”“地面” 等全局信息,而非僅依賴相鄰像素。
另一類代表性方法如 BEiT(BERT Pre-training of Image Transformers)則進(jìn)一步將重建目標(biāo)從像素級升級為特征級:首先使用預(yù)訓(xùn)練的教師模型(如 ViT)對圖像塊提取特征,作為 “語義標(biāo)簽”;掩碼重建時,模型不再預(yù)測像素值,而是預(yù)測被遮擋塊對應(yīng)的語義標(biāo)簽。這種方式使模型直接學(xué)習(xí)高層語義特征,減少了像素級重建中冗余細(xì)節(jié)(如光照變化導(dǎo)致的像素波動)的干擾,學(xué)習(xí)到的特征在下游任務(wù)中表現(xiàn)更優(yōu)。例如,在 ImageNet 分類任務(wù)中,BEiT 的預(yù)訓(xùn)練特征微調(diào)后準(zhǔn)確率較像素級重建方法提升 3-5 個百分點,證明了特征級重建的優(yōu)勢。
掩碼重建的技術(shù)創(chuàng)新還體現(xiàn)在掩碼策略的精細(xì)化設(shè)計上。早期隨機掩碼對所有區(qū)域一視同仁,而現(xiàn)代方法則根據(jù)圖像特性動態(tài)調(diào)整掩碼方式:例如,有的方法對紋理復(fù)雜區(qū)域(如植被、人臉)采用更高的掩碼比例,迫使模型學(xué)習(xí)更魯棒的特征;有的方法采用結(jié)構(gòu)化掩碼(如遮擋完整物體的一部分),增強模型對物體完整性的理解;還有的方法在視頻掩碼重建中引入時間維度的掩碼,要求模型同時考慮空間與時間上下文(如預(yù)測視頻中被遮擋幀的內(nèi)容),從而學(xué)習(xí)到時空特征。這些精細(xì)化的掩碼策略使模型能夠針對性地捕捉數(shù)據(jù)中的關(guān)鍵信息,進(jìn)一步提升特征質(zhì)量。
掩碼重建學(xué)習(xí)的特征在下游視覺任務(wù)中展現(xiàn)出強大的遷移能力,其應(yīng)用已覆蓋圖像分類、目標(biāo)檢測、語義分割、醫(yī)學(xué)影像分析等多個領(lǐng)域,尤其在標(biāo)注數(shù)據(jù)有限的場景中優(yōu)勢顯著。在圖像分類任務(wù)中,基于掩碼重建預(yù)訓(xùn)練的模型(如 MAE、BEiT)在 ImageNet 數(shù)據(jù)集上的微調(diào)準(zhǔn)確率已接近甚至超過監(jiān)督預(yù)訓(xùn)練模型,且在小樣本情況下表現(xiàn)更優(yōu) —— 當(dāng)訓(xùn)練數(shù)據(jù)僅為 10% 的 ImageNet 樣本時,掩碼重建預(yù)訓(xùn)練模型的準(zhǔn)確率較監(jiān)督預(yù)訓(xùn)練高 5-8 個百分點,證明其特征的泛化能力更強。這一優(yōu)勢在長尾分布數(shù)據(jù)集(如細(xì)分類別樣本極少的動物分類)中尤為明顯,掩碼重建學(xué)習(xí)的全局特征能夠更好地捕捉類別間的共性與差異。





