什么系統(tǒng)這么厲害,可以揭示人的衣服底下的身體的形狀和位置
隨著增強現(xiàn)實技術(shù)日益火紅,深度跟蹤攝像頭即將出現(xiàn)在旗艦級手機上,現(xiàn)在是時候改進計算機跟蹤它們所看到的人的運動軌跡的方式了——即使這意味著要“剝光”他們的衣服。有一種新的計算機視覺系統(tǒng)可以做到這一點,聽起來可能有點讓人毛骨悚然,但它肯定有它的用處。
最基本的問題是,如果你要捕捉一個人的動態(tài),比如在一部電影里或者在增強現(xiàn)實游戲里,系統(tǒng)會覺得有些模糊,因為他/她穿著衣服。你覺得動作捕捉演員為什么要穿緊身衣呢?因為他們?nèi)绻┲T如JNCO牛仔褲的褲子的話,系統(tǒng)會很難準確地判斷他們的腿在哪里。
同樣的,穿裙子、夾克或者背個背包也會引起那樣的困惑——基本上除了什么都不穿以外,不管穿什么都會干擾電腦準確判斷你身體的位置。
上述多機構(gòu)項目將會在鹽湖城的電腦視覺及圖形辨識(CVPR)大會上進行演示,它結(jié)合了深度數(shù)據(jù)和關(guān)于身體姿勢如何形成和它能做什么的智能假設(shè)。其產(chǎn)生的結(jié)果是一種X線視覺,可以揭示一個人衣服底下的身體的形狀和位置,即使是在像跳舞這樣的快速動作中,該系統(tǒng)也能實時運作。
項目論文基于兩種已有的方法——DynamicFusion(動態(tài)融合)和BodyFusion(身體融合)。第一種方法使用單攝像頭深度數(shù)據(jù)來判斷身體的姿勢,但不適合處理快速的移動或者遮擋;第二種方法使用骨架來判斷姿態(tài),但同樣在快速運動時失去方向。研究人員將這兩種方法結(jié)合成“DoubleFusion”(雙重融合),本質(zhì)上是從深度數(shù)據(jù)中創(chuàng)造出一種似是而非的骨架,然后在離核心適當?shù)木嚯x內(nèi)用皮膚“包裹”骨架。
如上圖所示,來自攝像頭的深度數(shù)據(jù)與人的一些基本參考圖像結(jié)合在一起,產(chǎn)生了一個骨架,并跟蹤了身體的關(guān)節(jié)和端部。最右邊則是三種方法DynamicFusion(b),BodyFusion(c)和DoubleFusion(d)分別產(chǎn)生的效果圖。
這些結(jié)果比任意其中一種方法單獨產(chǎn)生的結(jié)果都要好得多,似乎從各種各樣的姿勢和服裝中都能產(chǎn)生很好的體態(tài):
不管是連帽衫、耳機還是寬松的衣服,都無法阻擋DoubleFusion的“全視之眼”看穿一切。
然而,該方法存在一個不足:如果你穿了很多衣服,它往往會過度估量你的身材大小——沒有簡單的方法來判斷一個人的體形是否很寬,或者他們是否只是穿著一件厚實的毛衣。當你與一個獨立的物體(比如一張桌子或游戲控制器)進行互動時,它就不能很好地運作了——它可能會試圖把物體解讀為肢體的奇怪延伸。研究團隊已將處理這些異常情況納入未來的研究范疇。
論文的第一作者是中國清華大學(xué)的陶宇(Tao Yu音譯),但來自北京航空航天大學(xué)、美國南加州大學(xué)、谷歌和馬普研究所的研究人員也有參與。
“我們相信,我們的方法的穩(wěn)健性和準確性將使得許多應(yīng)用得以實現(xiàn),尤其是在AR/VR、游戲、娛樂甚至虛擬試穿領(lǐng)域,因為我們還重構(gòu)了潛在的體形。”論文作者在總結(jié)中寫道,“通過DoubleFusion雙重融合技術(shù),用戶將第一次能夠輕松地將自己數(shù)字化。”
沒有必要去否認這一技術(shù)有很多有趣的應(yīng)用。但也沒有必要否認這項技術(shù)基本上就是X射線透視器。





