掩碼重建:自監(jiān)督學(xué)習(xí)中的特征學(xué)習(xí)范式與視覺任務(wù)革新(二)
隨著 Transformer 在自然語言處理中的成功,研究者將 “掩碼語言模型”(Masked Language Model)的思想引入計(jì)算機(jī)視覺,推動(dòng)掩碼重建進(jìn)入 “密集掩碼 + 特征重建” 的新階段。以掩碼自編碼器(MAE)為例,其創(chuàng)新性地采用高達(dá) 75% 的密集掩碼比例,隨機(jī)遮擋圖像中大部分區(qū)域(以非重疊塊為單位),僅保留 25% 的可見塊;編碼器僅處理可見塊,大幅降低計(jì)算成本;解碼器則基于編碼器輸出的特征與掩碼位置信息,重建被遮擋塊的像素值。MAE 的密集掩碼策略迫使模型依賴全局上下文進(jìn)行重建,避免了對(duì)局部像素相關(guān)性的過度依賴,從而學(xué)習(xí)到更豐富的語義特征 —— 例如,重建被遮擋的 “貓爪” 時(shí),模型需要結(jié)合 “貓的身體”“地面” 等全局信息,而非僅依賴相鄰像素。
另一類代表性方法如 BEiT(BERT Pre-training of Image Transformers)則進(jìn)一步將重建目標(biāo)從像素級(jí)升級(jí)為特征級(jí):首先使用預(yù)訓(xùn)練的教師模型(如 ViT)對(duì)圖像塊提取特征,作為 “語義標(biāo)簽”;掩碼重建時(shí),模型不再預(yù)測(cè)像素值,而是預(yù)測(cè)被遮擋塊對(duì)應(yīng)的語義標(biāo)簽。這種方式使模型直接學(xué)習(xí)高層語義特征,減少了像素級(jí)重建中冗余細(xì)節(jié)(如光照變化導(dǎo)致的像素波動(dòng))的干擾,學(xué)習(xí)到的特征在下游任務(wù)中表現(xiàn)更優(yōu)。例如,在 ImageNet 分類任務(wù)中,BEiT 的預(yù)訓(xùn)練特征微調(diào)后準(zhǔn)確率較像素級(jí)重建方法提升 3-5 個(gè)百分點(diǎn),證明了特征級(jí)重建的優(yōu)勢(shì)。
掩碼重建的技術(shù)創(chuàng)新還體現(xiàn)在掩碼策略的精細(xì)化設(shè)計(jì)上。早期隨機(jī)掩碼對(duì)所有區(qū)域一視同仁,而現(xiàn)代方法則根據(jù)圖像特性動(dòng)態(tài)調(diào)整掩碼方式:例如,有的方法對(duì)紋理復(fù)雜區(qū)域(如植被、人臉)采用更高的掩碼比例,迫使模型學(xué)習(xí)更魯棒的特征;有的方法采用結(jié)構(gòu)化掩碼(如遮擋完整物體的一部分),增強(qiáng)模型對(duì)物體完整性的理解;還有的方法在視頻掩碼重建中引入時(shí)間維度的掩碼,要求模型同時(shí)考慮空間與時(shí)間上下文(如預(yù)測(cè)視頻中被遮擋幀的內(nèi)容),從而學(xué)習(xí)到時(shí)空特征。這些精細(xì)化的掩碼策略使模型能夠針對(duì)性地捕捉數(shù)據(jù)中的關(guān)鍵信息,進(jìn)一步提升特征質(zhì)量。
掩碼重建學(xué)習(xí)的特征在下游視覺任務(wù)中展現(xiàn)出強(qiáng)大的遷移能力,其應(yīng)用已覆蓋圖像分類、目標(biāo)檢測(cè)、語義分割、醫(yī)學(xué)影像分析等多個(gè)領(lǐng)域,尤其在標(biāo)注數(shù)據(jù)有限的場(chǎng)景中優(yōu)勢(shì)顯著。在圖像分類任務(wù)中,基于掩碼重建預(yù)訓(xùn)練的模型(如 MAE、BEiT)在 ImageNet 數(shù)據(jù)集上的微調(diào)準(zhǔn)確率已接近甚至超過監(jiān)督預(yù)訓(xùn)練模型,且在小樣本情況下表現(xiàn)更優(yōu) —— 當(dāng)訓(xùn)練數(shù)據(jù)僅為 10% 的 ImageNet 樣本時(shí),掩碼重建預(yù)訓(xùn)練模型的準(zhǔn)確率較監(jiān)督預(yù)訓(xùn)練高 5-8 個(gè)百分點(diǎn),證明其特征的泛化能力更強(qiáng)。這一優(yōu)勢(shì)在長尾分布數(shù)據(jù)集(如細(xì)分類別樣本極少的動(dòng)物分類)中尤為明顯,掩碼重建學(xué)習(xí)的全局特征能夠更好地捕捉類別間的共性與差異。





