人形機(jī)器人如何突破“恐怖谷效應(yīng)”?
當(dāng)人與人面對(duì)面交流時(shí),唇部動(dòng)作是核心關(guān)注焦點(diǎn)之一。迄今為止,機(jī)器人始終難以精準(zhǔn)模擬唇部動(dòng)作,而人類對(duì)自身面部神態(tài)的關(guān)注度極高,尤其對(duì)唇部動(dòng)作更為敏感——我們或許能包容機(jī)器人怪異的步態(tài)、笨拙的手部動(dòng)作,但哪怕是極其細(xì)微的表情失誤,都很難被接受。這種嚴(yán)苛的評(píng)判標(biāo)準(zhǔn),正是人們常說(shuō)的“恐怖谷效應(yīng)”。如今,美國(guó)研究人員開發(fā)的擬人面部機(jī)器人Emo,正試圖通過(guò)唇語(yǔ)同步與表情預(yù)判技術(shù),打破這一桎梏。
核心突破:跨語(yǔ)言唇語(yǔ)同步與預(yù)判式表情系統(tǒng)
Emo的核心優(yōu)勢(shì)在于能將唇部動(dòng)作與語(yǔ)音音頻精準(zhǔn)同步,呈現(xiàn)出更貼近人類的自然表情,且系統(tǒng)具備跨語(yǔ)言泛化能力,可覆蓋法語(yǔ)、中文、阿拉伯語(yǔ)等多種語(yǔ)種。這款機(jī)器人旨在優(yōu)化人機(jī)社交交互體驗(yàn),不僅支持面部表情的非對(duì)稱呈現(xiàn),硬件配置也較第一代Eva機(jī)器人實(shí)現(xiàn)全面升級(jí)。
具體來(lái)看,其面部采用磁吸式貼合設(shè)計(jì),可驅(qū)動(dòng)仿生皮膚靈活形變,相較傳統(tǒng)繩索傳動(dòng)系統(tǒng),控制精度大幅提升;同時(shí)面部嵌入高分辨率RGB攝像頭,能實(shí)現(xiàn)實(shí)時(shí)視覺感知,精準(zhǔn)預(yù)判對(duì)話對(duì)象的表情變化;系統(tǒng)內(nèi)置的雙神經(jīng)網(wǎng)絡(luò)架構(gòu)更是關(guān)鍵,其中自模型負(fù)責(zé)預(yù)測(cè)Emo自身的面部表情,交互模型則專注于預(yù)判人類對(duì)話者的表情。搭配23個(gè)面部表情驅(qū)動(dòng)電機(jī)與3個(gè)頸部運(yùn)動(dòng)驅(qū)動(dòng)電機(jī),Emo可實(shí)現(xiàn)表情實(shí)時(shí)同步,與人類達(dá)成自然的表情呼應(yīng)。
哥倫比亞研究人員表示,當(dāng)前同類技術(shù)共有五種,而Emo所采用的新技術(shù)表現(xiàn)更優(yōu),能最大程度縮小機(jī)器人唇部動(dòng)作與理想?yún)⒖家曨l的差異。“該框架可針對(duì)11種語(yǔ)音結(jié)構(gòu)各異的非英語(yǔ)語(yǔ)種,生成自然逼真的唇部動(dòng)作。”研究團(tuán)隊(duì)強(qiáng)調(diào),這一技術(shù)未來(lái)有望廣泛應(yīng)用于教育、養(yǎng)老等需要高頻人機(jī)交互的領(lǐng)域。
訓(xùn)練與性能:視頻自主學(xué)習(xí)+超高幀率實(shí)時(shí)響應(yīng)
在人機(jī)交互場(chǎng)景中,當(dāng)前多數(shù)機(jī)器人采用被動(dòng)響應(yīng)模式,即人類做出動(dòng)作后才模仿相應(yīng)表情,交互體驗(yàn)極為生硬。而預(yù)判式表情能提前預(yù)測(cè)人類情緒并生成對(duì)應(yīng)表情,是實(shí)現(xiàn)真實(shí)、高情商人機(jī)交互的核心關(guān)鍵,比如機(jī)器人主動(dòng)的微笑表情,就能有效增強(qiáng)人類對(duì)其的信任與社交聯(lián)結(jié)。
要實(shí)現(xiàn)這一目標(biāo),預(yù)判人類表情變化是Emo面臨的核心技術(shù)難點(diǎn),唯有精準(zhǔn)預(yù)判才能為動(dòng)作執(zhí)行預(yù)留充足時(shí)間。為此,研究人員招募了45名受試者,錄制970段視頻數(shù)據(jù),以此訓(xùn)練出一套高效的預(yù)判式面部表情模型。該模型能捕捉人類面部表情的初始變化,并準(zhǔn)確預(yù)測(cè)后續(xù)表情發(fā)展趨勢(shì)。在訓(xùn)練過(guò)程中,輸入幀從表情峰值周圍的四個(gè)幀中隨機(jī)選取,標(biāo)簽則由隨后的四個(gè)幀提供,確保了模型預(yù)測(cè)的精準(zhǔn)性與泛化性。
出色的硬件與算法協(xié)同,帶來(lái)了極致的響應(yīng)速度。在2019款蘋果MacBook Pro上,預(yù)判模型的運(yùn)行幀率可達(dá)650幀/秒,逆模型的電機(jī)指令執(zhí)行幀率更是高達(dá)8000幀/秒,這使得機(jī)器人能在0.002秒內(nèi)完成表情生成。而人類面部表情的生成通常需要0.841±0.713秒,這為機(jī)器人實(shí)現(xiàn)實(shí)時(shí)表情響應(yīng)預(yù)留了充足的緩沖時(shí)間。借助預(yù)判模型與逆模型的協(xié)同作用,機(jī)器人無(wú)需直接觀測(cè)目標(biāo)面部,就能與人類實(shí)現(xiàn)面部表情的同步呈現(xiàn)。
值得一提的是,哥倫比亞團(tuán)隊(duì)開發(fā)的系統(tǒng)首次實(shí)現(xiàn)了機(jī)器人通過(guò)自主學(xué)習(xí)掌握適用于說(shuō)話、唱歌等任務(wù)的面部唇部動(dòng)作。它不僅能清晰說(shuō)出多種語(yǔ)言的詞匯,甚至還演唱了人工智能原創(chuàng)專輯《你好,世界》(Hello World)中的歌曲。機(jī)器人的學(xué)習(xí)過(guò)程極具“自主性”:先對(duì)著鏡子觀察自身影像,摸清26個(gè)面部驅(qū)動(dòng)電機(jī)的操控方式,隨后通過(guò)觀看YouTube視頻,自主學(xué)會(huì)了模仿人類的唇部動(dòng)作?!皺C(jī)器人系統(tǒng)與人類互動(dòng)越頻繁,表現(xiàn)會(huì)越出色?!备鐐惐葋喆髮W(xué)教授霍德·利普森(Hod Lipson)表示。
挑戰(zhàn)與展望:攻克語(yǔ)音難題,邁向全面人機(jī)融合
讓機(jī)器人精準(zhǔn)實(shí)現(xiàn)唇部動(dòng)作,并非易事,主要面臨兩大核心挑戰(zhàn):一是硬件支持,需要具備靈活變形能力的仿生皮膚和高性能微型驅(qū)動(dòng)電機(jī);二是技術(shù)層面,唇部運(yùn)動(dòng)是一套復(fù)雜的動(dòng)態(tài)過(guò)程,其變化規(guī)律由一連串語(yǔ)音音節(jié)和音素共同決定。人類的唇部動(dòng)作由幾十塊肌肉協(xié)同驅(qū)動(dòng),這使得人形機(jī)器人的面部動(dòng)作極易顯得生硬、不自然,進(jìn)而引發(fā)“恐怖谷效應(yīng)”。
目前來(lái)看,哥倫比亞團(tuán)隊(duì)開發(fā)的系統(tǒng)在唇部動(dòng)作模擬上仍有提升空間。利普森坦言:“我們?cè)谀M爆破音(比如B)和噘唇音(如字母W的發(fā)音)時(shí),遇到不少困難,但假以時(shí)日,經(jīng)過(guò)反復(fù)訓(xùn)練,未來(lái)會(huì)得到提升。”此外,該技術(shù)還存在一定的文化局限性,比如在不同文化背景下,人類的表情表達(dá)與眼神交流習(xí)慣存在差異,單純的表情模仿難以適配所有場(chǎng)景。但研究團(tuán)隊(duì)認(rèn)為,對(duì)人類表情的預(yù)判能力,已是機(jī)器人實(shí)現(xiàn)社交能力發(fā)展的關(guān)鍵第一步。
當(dāng)今機(jī)器人領(lǐng)域的研究重點(diǎn)多集中在腿部、手部動(dòng)作上,但利普森判斷,未來(lái)只要涉及人機(jī)交互場(chǎng)景,面部表情就不可或缺?!拔磥?lái)所有人形機(jī)器人都會(huì)配備面部結(jié)構(gòu),而當(dāng)它們真正擁有面部時(shí),必須靈活地轉(zhuǎn)動(dòng)眼球、活動(dòng)嘴唇,否則就會(huì)永遠(yuǎn)深陷恐怖谷效應(yīng)之中?!保ㄐ〉叮?





