日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁(yè) > 嵌入式 > 嵌入式分享
圖像分割的核心是“如何精準(zhǔn)拆分圖像”,隨著計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,“拆分圖像”的方法經(jīng)歷了從“傳統(tǒng)手動(dòng)分割”到“傳統(tǒng)機(jī)器學(xué)習(xí)分割”,再到“深度學(xué)習(xí)分割”的迭代升級(jí)。不同的技術(shù)方法,其核心邏輯、適用場(chǎng)景和分割精度存在顯著差異,以下按“技術(shù)迭代順序”,詳細(xì)拆解各類核心技術(shù)的原理、實(shí)操邏輯、優(yōu)勢(shì)與局限,重點(diǎn)講解目前主流的深度學(xué)習(xí)分割技術(shù)。
(一)傳統(tǒng)手動(dòng)分割技術(shù):最基礎(chǔ)的“拆分”方式
傳統(tǒng)手動(dòng)分割是最早的圖像分割方式,核心邏輯是“人工逐像素標(biāo)注、手動(dòng)拆分圖像”,本質(zhì)是“人類視覺(jué)替代機(jī)器視覺(jué)”,無(wú)需復(fù)雜的算法,完全依賴人工操作。這種技術(shù)主要分為兩種類型:
1. 手動(dòng)描邊分割:通過(guò)專業(yè)的圖像編輯工具(如Photoshop、LabelMe),人工沿著目標(biāo)的輪廓描邊,將目標(biāo)區(qū)域與背景區(qū)域拆分,標(biāo)注出每個(gè)子區(qū)域的范圍。例如,在醫(yī)療影像標(biāo)注中,醫(yī)生需要手動(dòng)沿著病灶的邊緣描邊,將病灶區(qū)域與正常組織拆分,得到精準(zhǔn)的分割掩碼。
2. 閾值手動(dòng)調(diào)整分割:對(duì)于灰度圖等簡(jiǎn)單圖像,人工調(diào)整灰度閾值,將像素值高于閾值的區(qū)域和低于閾值的區(qū)域拆分為兩個(gè)子區(qū)域(如將灰度值128的像素標(biāo)注為目標(biāo),灰度值≤128的像素標(biāo)注為背景)。這種方式適用于目標(biāo)與背景灰度差異較大的簡(jiǎn)單圖像,操作相對(duì)簡(jiǎn)單,但精度較低。
傳統(tǒng)手動(dòng)分割的核心優(yōu)勢(shì)是“分割精度高”(只要人工操作細(xì)致,就能得到精準(zhǔn)的分割結(jié)果),適用于小批量、高精度需求的場(chǎng)景(如醫(yī)療影像的少量標(biāo)注、科研數(shù)據(jù)的手動(dòng)拆分);其核心局限是“效率極低、成本極高”,無(wú)法適配大批量圖像的分割任務(wù)(如自動(dòng)駕駛的海量路況圖像、智能安防的海量監(jiān)控圖像),且人工操作容易出現(xiàn)疲勞誤差,分割結(jié)果的一致性較差(不同人標(biāo)注的結(jié)果可能存在差異)。目前,手動(dòng)分割主要用于“標(biāo)注訓(xùn)練數(shù)據(jù)”,為機(jī)器學(xué)習(xí)、深度學(xué)習(xí)分割算法提供樣本,很少直接用于實(shí)際應(yīng)用場(chǎng)景。
(二)傳統(tǒng)機(jī)器學(xué)習(xí)分割技術(shù):基于特征的自動(dòng)拆分
隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,出現(xiàn)了基于傳統(tǒng)機(jī)器學(xué)習(xí)的圖像分割技術(shù),其核心邏輯是“通過(guò)算法自動(dòng)提取像素特征,基于特征相似性實(shí)現(xiàn)像素聚類或分類”,擺脫了對(duì)人工操作的完全依賴,實(shí)現(xiàn)了“半自動(dòng)化、自動(dòng)化”的圖像拆分。這種技術(shù)的核心是“特征提取+聚類/分類”,常用的方法主要有以下4種,各有側(cè)重、適配不同場(chǎng)景:
1. 閾值分割法:基于灰度/顏色特征的簡(jiǎn)單拆分
閾值分割法是最基礎(chǔ)、最常用的傳統(tǒng)機(jī)器學(xué)習(xí)分割方法,核心邏輯是“基于像素的灰度值或顏色值,設(shè)定一個(gè)或多個(gè)閾值,將圖像拆分為若干個(gè)子區(qū)域”——核心假設(shè)是:目標(biāo)區(qū)域與背景區(qū)域的灰度值/顏色值存在明顯差異,通過(guò)閾值可以快速區(qū)分。
閾值分割法主要分為兩種:① 單閾值分割:設(shè)定一個(gè)閾值T,將像素值T的區(qū)域標(biāo)注為目標(biāo),像素值≤T的區(qū)域標(biāo)注為背景,適用于目標(biāo)與背景灰度差異較大、背景單一的簡(jiǎn)單圖像(如黑白文字圖像、灰度值差異明顯的工業(yè)零件圖像);② 多閾值分割:設(shè)定多個(gè)閾值(如T1、T2、T3),將像素值劃分為多個(gè)區(qū)間,每個(gè)區(qū)間對(duì)應(yīng)一個(gè)子區(qū)域,適用于目標(biāo)與背景灰度差異不明顯、存在多個(gè)灰度層次的圖像(如灰度漸變的醫(yī)學(xué)影像)。
舉個(gè)具體案例:一張黑白文字圖像,文字區(qū)域的灰度值較低(接近0,純黑),背景區(qū)域的灰度值較高(接近255,純白),設(shè)定閾值T=128,將灰度值≤128的像素標(biāo)注為文字(目標(biāo)區(qū)域),灰度值128的像素標(biāo)注為背景,就能快速實(shí)現(xiàn)文字與背景的拆分,這就是單閾值分割的實(shí)操邏輯。
閾值分割法的核心優(yōu)勢(shì)是“計(jì)算簡(jiǎn)單、效率高”,無(wú)需復(fù)雜的特征提取和模型訓(xùn)練,能夠快速處理大批量簡(jiǎn)單圖像;其核心局限是“適應(yīng)性差”,僅適用于目標(biāo)與背景特征差異明顯、背景單一的圖像,對(duì)于背景雜亂、光照不均、目標(biāo)與背景灰度重疊的復(fù)雜圖像,分割精度會(huì)大幅下降(如逆光拍攝的圖像、多目標(biāo)重疊的圖像)。
2. 邊緣檢測(cè)分割法:基于邊緣特征的拆分
邊緣檢測(cè)分割法的核心邏輯是“先檢測(cè)圖像中的邊緣(目標(biāo)與背景、不同目標(biāo)之間的邊界),再基于邊緣輪廓,將圖像拆分為若干個(gè)子區(qū)域”——核心假設(shè)是:不同子區(qū)域之間的邊緣,像素特征會(huì)發(fā)生突變(如灰度值、顏色值突變),通過(guò)邊緣檢測(cè)算法可以捕捉這些突變,進(jìn)而確定子區(qū)域的邊界。
這種方法的核心步驟分為兩步:第一步,邊緣檢測(cè),通過(guò)邊緣檢測(cè)算子(如Sobel算子、Canny算子、Prewitt算子),提取圖像中的邊緣像素(邊緣像素的灰度值突變明顯),得到邊緣圖像;第二步,邊緣連接與區(qū)域劃分,將離散的邊緣像素連接成完整的邊緣輪廓,根據(jù)邊緣輪廓,將圖像拆分為不同的子區(qū)域。
例如,一張包含圓形和方形的圖像,圓形和方形的邊緣像素灰度值突變明顯,通過(guò)Canny算子檢測(cè)出邊緣輪廓后,將圓形輪廓和方形輪廓內(nèi)部的像素分別標(biāo)注為兩個(gè)子區(qū)域,就能實(shí)現(xiàn)圓形和方形的拆分。
邊緣檢測(cè)分割法的核心優(yōu)勢(shì)是“能夠精準(zhǔn)捕捉目標(biāo)的邊緣輪廓”,適用于目標(biāo)輪廓清晰、邊緣明顯的圖像(如工業(yè)零件的輪廓分割、簡(jiǎn)單幾何圖形的分割);其核心局限是“對(duì)噪聲敏感”,如果圖像中存在噪聲(如椒鹽噪聲、高斯噪聲),會(huì)導(dǎo)致邊緣檢測(cè)出現(xiàn)誤差,離散的邊緣無(wú)法連接成完整的輪廓,進(jìn)而影響分割精度;同時(shí),對(duì)于邊緣模糊、無(wú)明顯邊緣的圖像(如灰度漸變的圖像),無(wú)法實(shí)現(xiàn)有效分割。
3. 區(qū)域生長(zhǎng)分割法:基于像素相似性的聚類拆分
區(qū)域生長(zhǎng)分割法的核心邏輯是“從一個(gè)或多個(gè)種子像素(人工指定或算法自動(dòng)選擇)出發(fā),逐步將與種子像素特征相似的像素(如灰度值、顏色值、紋理特征相似)合并為一個(gè)子區(qū)域,直到?jīng)]有符合條件的像素可合并,最終形成多個(gè)互不重疊的子區(qū)域”——核心是“像素相似性聚類”,模擬人類視覺(jué)中“從局部到整體”的識(shí)別邏輯。
這種方法的核心步驟分為三步:第一步,選擇種子像素,種子像素可以是人工指定的關(guān)鍵像素(如目標(biāo)的核心像素),也可以是算法自動(dòng)選擇的像素(如灰度值處于峰值的像素);第二步,設(shè)定相似性準(zhǔn)則(如灰度值差值≤5、顏色值相似度≥0.9),判斷周圍像素與種子像素是否相似;第三步,區(qū)域生長(zhǎng),將相似的像素合并到種子像素所在的區(qū)域,重復(fù)這一過(guò)程,直到所有像素都被劃分到對(duì)應(yīng)的區(qū)域。
例如,一張包含紅色蘋果和綠色葉子的圖像,選擇蘋果核心的紅色像素作為種子像素,設(shè)定相似性準(zhǔn)則為“RGB顏色值與種子像素的差值≤30”,逐步將周圍的紅色像素合并為蘋果區(qū)域;再選擇葉子核心的綠色像素作為種子像素,逐步合并綠色像素為葉子區(qū)域,最終實(shí)現(xiàn)蘋果與葉子的拆分。
區(qū)域生長(zhǎng)分割法的核心優(yōu)勢(shì)是“分割精度較高,能夠捕捉目標(biāo)的細(xì)節(jié)輪廓”,適用于目標(biāo)與背景特征相似但存在局部核心區(qū)域的圖像(如醫(yī)療影像中的病灶分割、自然場(chǎng)景中的目標(biāo)分割);其核心局限是“效率較低”,需要逐像素判斷相似性,處理大批量、高分辨率圖像時(shí)速度較慢;同時(shí),種子像素的選擇和相似性準(zhǔn)則的設(shè)定,對(duì)分割結(jié)果影響較大,容易出現(xiàn)過(guò)分割(將同一目標(biāo)拆分為多個(gè)區(qū)域)或欠分割(將多個(gè)目標(biāo)合并為一個(gè)區(qū)域)的問(wèn)題。
4. 聚類分割法:基于特征聚類的自動(dòng)拆分
聚類分割法的核心邏輯是“將圖像中的所有像素看作樣本,提取每個(gè)像素的特征(如灰度值、顏色值、紋理特征),通過(guò)聚類算法將特征相似的樣本(像素)聚為一類,每一類對(duì)應(yīng)一個(gè)子區(qū)域,實(shí)現(xiàn)圖像的自動(dòng)拆分”——與區(qū)域生長(zhǎng)法不同,聚類分割法無(wú)需種子像素,完全通過(guò)算法自動(dòng)聚類,自動(dòng)化程度更高。
常用的聚類算法有K-Means聚類、模糊C均值聚類(FCM)、層次聚類等,其中K-Means聚類是最常用的方法,其核心邏輯是:先設(shè)定聚類數(shù)量K(如K=3,對(duì)應(yīng)目標(biāo)、背景、中間區(qū)域),隨機(jī)選擇K個(gè)聚類中心;再計(jì)算每個(gè)像素到各個(gè)聚類中心的距離,將像素劃分到距離最近的聚類中心所在的類別;然后更新聚類中心(取每個(gè)類別的像素特征均值作為新的聚類中心),重復(fù)這一過(guò)程,直到聚類中心不再變化,最終得到K個(gè)互不重疊的子區(qū)域。
例如,一張包含藍(lán)天、白云、大地的圖像,提取每個(gè)像素的RGB顏色特征,設(shè)定K=3,通過(guò)K-Means聚類,將顏色相似的像素分別聚為三類(藍(lán)色像素聚為藍(lán)天類、白色像素聚為白云類、褐色像素聚為大地類),就能實(shí)現(xiàn)藍(lán)天、白云、大地的自動(dòng)拆分。
聚類分割法的核心優(yōu)勢(shì)是“自動(dòng)化程度高,無(wú)需人工干預(yù),適用于大批量圖像的分割”,適用于目標(biāo)與背景特征差異不明顯、多目標(biāo)共存的復(fù)雜圖像(如自然場(chǎng)景圖像、監(jiān)控圖像);其核心局限是“對(duì)特征提取的精度要求較高”,如果特征提取不精準(zhǔn),會(huì)導(dǎo)致聚類錯(cuò)誤,出現(xiàn)分割偏差;同時(shí),聚類數(shù)量K需要人工設(shè)定,不同圖像的最優(yōu)K值不同,難以適配所有場(chǎng)景;此外,聚類算法的計(jì)算復(fù)雜度較高,處理高分辨率圖像時(shí)效率較低。
(三)深度學(xué)習(xí)分割技術(shù):目前主流的精準(zhǔn)拆分方法
傳統(tǒng)機(jī)器學(xué)習(xí)分割技術(shù),無(wú)論是閾值分割、邊緣檢測(cè),還是聚類分割,都存在一個(gè)核心痛點(diǎn):“特征提取依賴人工設(shè)計(jì)”,工程師需要手動(dòng)設(shè)計(jì)像素的特征(如灰度、顏色、紋理),而人工設(shè)計(jì)的特征往往無(wú)法適配復(fù)雜場(chǎng)景(如光照不均、多目標(biāo)重疊、背景雜亂),導(dǎo)致分割精度有限。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的圖像分割技術(shù)應(yīng)運(yùn)而生,其核心邏輯是“通過(guò)深度神經(jīng)網(wǎng)絡(luò)(如CNN、Transformer)自動(dòng)提取像素的底層特征、中層特征和高層語(yǔ)義特征,無(wú)需人工設(shè)計(jì)特征,再通過(guò)網(wǎng)絡(luò)輸出像素級(jí)的分類結(jié)果(分割掩碼),實(shí)現(xiàn)精準(zhǔn)的圖像拆分”——核心優(yōu)勢(shì)是“自動(dòng)特征提取、分割精度高、適配復(fù)雜場(chǎng)景”,目前已成為計(jì)算機(jī)視覺(jué)中“拆分圖像”的主流技術(shù),占據(jù)了90%以上的實(shí)際應(yīng)用場(chǎng)景。
深度學(xué)習(xí)分割技術(shù)的核心是“分割網(wǎng)絡(luò)”,不同的分割網(wǎng)絡(luò),其結(jié)構(gòu)設(shè)計(jì)、特征提取邏輯、分割精度存在差異,以下重點(diǎn)拆解目前最主流、最常用的4種分割網(wǎng)絡(luò),詳細(xì)講解其原理、優(yōu)勢(shì)與適用場(chǎng)景:
1. FCN(全卷積網(wǎng)絡(luò)):深度學(xué)習(xí)分割的“開山之作”
FCN(Fully Convolutional Networks,全卷積網(wǎng)絡(luò))是2015年提出的深度學(xué)習(xí)分割網(wǎng)絡(luò),是第一個(gè)將CNN應(yīng)用于圖像分割的網(wǎng)絡(luò),被譽(yù)為“深度學(xué)習(xí)分割的開山之作”——它打破了傳統(tǒng)CNN只能處理固定尺寸圖像、輸出類別標(biāo)簽的局限,通過(guò)“全卷積化”改造,實(shí)現(xiàn)了對(duì)任意尺寸圖像的像素級(jí)分類,為后續(xù)所有深度學(xué)習(xí)分割網(wǎng)絡(luò)奠定了基礎(chǔ)。
FCN的核心結(jié)構(gòu)與原理:FCN基于傳統(tǒng)的CNN網(wǎng)絡(luò)(如AlexNet、VGGNet)改造而來(lái),核心改造是“將CNN的全連接層替換為卷積層”,使得網(wǎng)絡(luò)的輸出不再是固定維度的類別向量,而是與輸入圖像尺寸對(duì)應(yīng)的“分割掩碼”(每個(gè)像素對(duì)應(yīng)一個(gè)類別概率)。其核心步驟分為三步:
第一步,特征提取,通過(guò)CNN的卷積層、池化層,自動(dòng)提取輸入圖像的底層特征(邊緣、紋理)、中層特征(局部結(jié)構(gòu))和高層語(yǔ)義特征(目標(biāo)類別),隨著網(wǎng)絡(luò)層數(shù)的加深,特征圖的尺寸逐漸縮小(池化層的作用),特征的語(yǔ)義信息逐漸增強(qiáng)。
第二步,上采樣(反卷積),由于特征提取過(guò)程中特征圖尺寸縮小,無(wú)法與輸入圖像尺寸對(duì)應(yīng),因此需要通過(guò)上采樣(反卷積)操作,將縮小的特征圖放大到與輸入圖像相同的尺寸,得到初步的分割掩碼。
第三步,像素級(jí)分類,通過(guò)最后的卷積層,將上采樣后的特征圖映射為像素級(jí)的類別概率(每個(gè)像素對(duì)應(yīng)多個(gè)類別的概率),選擇概率最大的類別作為該像素的類別,最終得到精準(zhǔn)的分割掩碼。
FCN的核心創(chuàng)新點(diǎn)是“全卷積化”和“上采樣”,實(shí)現(xiàn)了“端到端”的圖像分割(從輸入圖像直接輸出分割掩碼),無(wú)需人工干預(yù)特征提??;其核心優(yōu)勢(shì)是“分割速度快、適配任意尺寸圖像”,適用于大批量、實(shí)時(shí)性要求較高的簡(jiǎn)單分割場(chǎng)景(如簡(jiǎn)單目標(biāo)分割、背景拆分);其核心局限是“分割精度有限,尤其是邊緣分割不夠精準(zhǔn)”,由于上采樣過(guò)程中會(huì)丟失部分細(xì)節(jié)特征,導(dǎo)致目標(biāo)邊緣出現(xiàn)模糊、鋸齒狀,無(wú)法適配高精度需求的場(chǎng)景(如醫(yī)療影像分割、自動(dòng)駕駛感知)。
2. U-Net:醫(yī)療影像分割的“黃金標(biāo)準(zhǔn)”
U-Net是2015年提出的深度學(xué)習(xí)分割網(wǎng)絡(luò),最初是為醫(yī)療影像分割設(shè)計(jì)的,由于其分割精度高、能夠捕捉目標(biāo)細(xì)節(jié),目前已成為醫(yī)療影像分割的“黃金標(biāo)準(zhǔn)”,同時(shí)也廣泛應(yīng)用于其他高精度分割場(chǎng)景(如工業(yè)缺陷分割、小目標(biāo)分割)。
U-Net的核心結(jié)構(gòu)與原理:U-Net的網(wǎng)絡(luò)結(jié)構(gòu)呈“U”型,因此得名,核心結(jié)構(gòu)分為“編碼器(Encoder)+ 解碼器(Decoder)+ 跳躍連接(Skip Connection)”三部分,其核心創(chuàng)新點(diǎn)是“跳躍連接”,解決了FCN上采樣過(guò)程中細(xì)節(jié)特征丟失的問(wèn)題,實(shí)現(xiàn)了高層語(yǔ)義特征與底層細(xì)節(jié)特征的融合。
具體來(lái)說(shuō),U-Net的工作流程分為三步:
第一步,編碼器(左側(cè)U型):由卷積層和池化層組成,核心作用是“提取圖像的高層語(yǔ)義特征”——通過(guò)多次卷積和池化操作,逐步縮小特征圖的尺寸,增強(qiáng)特征的語(yǔ)義信息(如判斷像素是否屬于病灶),同時(shí)保留每一層的底層細(xì)節(jié)特征(如病灶的邊緣、紋理)。
第二步,解碼器(右側(cè)U型):由反卷積層(上采樣)和卷積層組成,核心作用是“恢復(fù)圖像的細(xì)節(jié)特征,生成精準(zhǔn)的分割掩碼”——通過(guò)多次反卷積操作,逐步放大特征圖的尺寸,同時(shí)通過(guò)“跳躍連接”,將編碼器對(duì)應(yīng)層級(jí)的底層細(xì)節(jié)特征(邊緣、紋理)融合到解碼器中,彌補(bǔ)上采樣過(guò)程中丟失的細(xì)節(jié)。
第三步,輸出分割掩碼:通過(guò)最后的卷積層(1×1卷積),將解碼器輸出的特征圖映射為像素級(jí)的類別概率,得到與輸入圖像尺寸相同、細(xì)節(jié)精準(zhǔn)的分割掩碼。
U-Net的核心優(yōu)勢(shì)是“分割精度高、細(xì)節(jié)捕捉能力強(qiáng)”,尤其是邊緣分割精準(zhǔn),能夠適配小目標(biāo)、邊緣模糊的復(fù)雜場(chǎng)景(如醫(yī)療影像中的病灶分割、工業(yè)零件的缺陷分割);其核心局限是“分割速度較慢”,由于需要融合多層特征,計(jì)算復(fù)雜度較高,處理高分辨率圖像時(shí)速度較慢,難以適配實(shí)時(shí)性要求極高的場(chǎng)景(如自動(dòng)駕駛實(shí)時(shí)感知);同時(shí),U-Net對(duì)小樣本數(shù)據(jù)敏感,需要大量標(biāo)注數(shù)據(jù)才能達(dá)到最優(yōu)分割效果。
3. Mask R-CNN:實(shí)例分割的“主流算法”
Mask R-CNN是2017年提出的深度學(xué)習(xí)分割網(wǎng)絡(luò),基于Faster R-CNN(目標(biāo)檢測(cè)網(wǎng)絡(luò))改造而來(lái),核心定位是“實(shí)例分割”——既能夠?qū)崿F(xiàn)目標(biāo)的檢測(cè)(框選目標(biāo)位置、分類目標(biāo)類別),又能夠?qū)崿F(xiàn)像素級(jí)的實(shí)例分割(區(qū)分同一類別的不同實(shí)例),是目前實(shí)例分割的主流算法,廣泛應(yīng)用于多目標(biāo)實(shí)例分割場(chǎng)景(如智能安防、自動(dòng)駕駛、機(jī)器人視覺(jué))。
Mask R-CNN的核心結(jié)構(gòu)與原理:Mask R-CNN的核心結(jié)構(gòu)是“Faster R-CNN + 掩碼分支(Mask Branch)”,在Faster R-CNN的基礎(chǔ)上,增加了一個(gè)專門用于生成分割掩碼的分支,實(shí)現(xiàn)了“檢測(cè)+分割”的一體化。其核心步驟分為四步:
第一步,特征提取,通過(guò)CNN backbone(如ResNet)提取輸入圖像的特征圖,為后續(xù)的目標(biāo)檢測(cè)和實(shí)例分割提供特征支撐。
第二步,候選區(qū)域生成,通過(guò)RPN(區(qū)域提議網(wǎng)絡(luò)),在特征圖上生成大量可能包含目標(biāo)的候選區(qū)域(邊界框),篩選出具有較高目標(biāo)概率的候選區(qū)域。
第三步,目標(biāo)檢測(cè)分支,對(duì)篩選后的候選區(qū)域進(jìn)行分類(判斷目標(biāo)類別)和邊界框回歸(優(yōu)化候選區(qū)域的位置,使其更精準(zhǔn)),得到目標(biāo)的邊界框和類別標(biāo)簽。
第四步,掩碼分支(核心),對(duì)每個(gè)候選區(qū)域,通過(guò)卷積層和上采樣操作,生成與候選區(qū)域尺寸對(duì)應(yīng)的分割掩碼(二進(jìn)制掩碼,1表示屬于目標(biāo)像素,0表示不屬于目標(biāo)像素),實(shí)現(xiàn)每個(gè)實(shí)例的像素級(jí)拆分,同時(shí)區(qū)分同一類別的不同實(shí)例。
例如,一張包含3只貓的圖像,Mask R-CNN不僅能框出每只貓的位置、標(biāo)注“貓”的類別,還能生成3個(gè)分割掩碼,分別標(biāo)注每只貓的像素區(qū)域,清晰區(qū)分3只不同的貓(實(shí)例),這是語(yǔ)義分割無(wú)法實(shí)現(xiàn)的功能。
Mask R-CNN的核心優(yōu)勢(shì)是“兼顧檢測(cè)與分割,實(shí)例分割精度高”,能夠適配多目標(biāo)、重疊目標(biāo)的實(shí)例分割場(chǎng)景,實(shí)用性極強(qiáng);其核心局限是“分割速度較慢”,由于需要同時(shí)完成目標(biāo)檢測(cè)和實(shí)例分割,計(jì)算復(fù)雜度較高,難以適配實(shí)時(shí)性要求極高的場(chǎng)景(如自動(dòng)駕駛實(shí)時(shí)感知);同時(shí),對(duì)于小目標(biāo)、密集目標(biāo)的分割精度,還有提升空間。
4. Transformer-based分割網(wǎng)絡(luò):復(fù)雜場(chǎng)景的“精準(zhǔn)解決方案”
隨著Transformer技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用,基于Transformer的圖像分割網(wǎng)絡(luò)應(yīng)運(yùn)而生(如SegViT、Mask2Former),其核心邏輯是“通過(guò)Transformer的自注意力機(jī)制,捕捉圖像的全局上下文特征,解決CNN網(wǎng)絡(luò)局部感受野的局限,實(shí)現(xiàn)更精準(zhǔn)的分割”——核心優(yōu)勢(shì)是“全局特征捕捉能力強(qiáng),適配復(fù)雜場(chǎng)景(如多目標(biāo)重疊、背景雜亂、光照不均)”,目前已成為高端圖像分割場(chǎng)景的主流選擇。
傳統(tǒng)的CNN分割網(wǎng)絡(luò)(如U-Net、FCN),其核心局限是“局部感受野”,只能捕捉圖像的局部特征,無(wú)法很好地捕捉全局上下文特征(如目標(biāo)與目標(biāo)、目標(biāo)與背景之間的關(guān)聯(lián)),導(dǎo)致在復(fù)雜場(chǎng)景中出現(xiàn)分割偏差;而Transformer的自注意力機(jī)制,能夠計(jì)算每個(gè)像素與圖像中所有其他像素的關(guān)聯(lián),捕捉全局上下文特征,從而更精準(zhǔn)地判斷像素的類別。
以SegViT(分割視覺(jué)Transformer)為例,其核心結(jié)構(gòu)與原理:SegViT將圖像劃分為若干個(gè)圖像塊(Patch),將每個(gè)圖像塊轉(zhuǎn)化為向量,輸入到Transformer編碼器中,通過(guò)自注意力機(jī)制,捕捉每個(gè)圖像塊與其他所有圖像塊的關(guān)聯(lián)(全局特征);再通過(guò)Transformer解碼器,將全局特征與局部細(xì)節(jié)特征融合,生成像素級(jí)的分割掩碼;最后通過(guò)分類層,得到每個(gè)像素的類別,實(shí)現(xiàn)精準(zhǔn)分割。
基于Transformer的分割網(wǎng)絡(luò),核心優(yōu)勢(shì)是“全局特征捕捉能力強(qiáng),分割精度高,適配復(fù)雜場(chǎng)景”,適用于多目標(biāo)重疊、背景雜亂、光照不均的高端分割場(chǎng)景(如自動(dòng)駕駛實(shí)時(shí)感知、醫(yī)療影像高精度分割、智能安防復(fù)雜場(chǎng)景分割);其核心局限是“計(jì)算復(fù)雜度高、分割速度慢、對(duì)硬件算力要求高”,需要高性能的GPU支撐,難以適配移動(dòng)端、嵌入式等算力有限的場(chǎng)景;同時(shí),模型參數(shù)較多,需要大量標(biāo)注數(shù)據(jù)才能達(dá)到最優(yōu)效果。
本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀
關(guān)閉