自然語(yǔ)言和三維姿態(tài)模型結(jié)合,AI研究者將文字轉(zhuǎn)成肢體語(yǔ)音
卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)的人工智能研究人員發(fā)明了一種人工智能代理,能夠?qū)⑽淖洲D(zhuǎn)化成身體動(dòng)作。這種方法被稱(chēng)為Joint Language-to-Pose,或JL2P,它將自然語(yǔ)言與三維姿態(tài)模型相結(jié)合。
JL2P動(dòng)畫(huà)目前僅限于簡(jiǎn)筆畫(huà),但將文字翻譯成類(lèi)似人類(lèi)動(dòng)作的能力有朝一日可以幫助類(lèi)人機(jī)器人在現(xiàn)實(shí)世界中執(zhí)行物理任務(wù),或幫助創(chuàng)意人員為視頻游戲或電影等制作虛擬人物動(dòng)畫(huà)。
JL2P能夠做一些比如走路或跑步,演奏樂(lè)器(如吉他或小提琴),遵循方向指示(左或右),或控制速度(快或慢)的動(dòng)作。這項(xiàng)研究最初發(fā)布于arXiv.org上的一篇論文,并且將于9月19日在魁北克舉行的3D視覺(jué)國(guó)際會(huì)議上由CMU語(yǔ)言技術(shù)研究所的研究員柴坦雅·阿胡亞(Chaitanya Ahuja)與合作者共同發(fā)表。
“我們首先根據(jù)完整的指令來(lái)預(yù)測(cè)動(dòng)作序列從而優(yōu)化模型,”論文寫(xiě)道。這個(gè)簡(jiǎn)單的任務(wù)可以幫助模型學(xué)習(xí)非常短的姿勢(shì)序列,比如走路時(shí)的腿部動(dòng)作、揮手時(shí)的手部動(dòng)作和彎曲時(shí)的軀干動(dòng)作。研究人員聲稱(chēng),與SRI國(guó)際研究人員2018年提出的最先進(jìn)的人工智能相比,JL2P在人體運(yùn)動(dòng)建模方面有9%的提升。
據(jù)了解,JL2P使用KIT動(dòng)作語(yǔ)言數(shù)據(jù)集進(jìn)行訓(xùn)練。該數(shù)據(jù)集由德國(guó)高性能仿人技術(shù)公司(High Performance Humanoid Technologies)于2016年推出,將人體運(yùn)動(dòng)與自然語(yǔ)言描述相結(jié)合,將長(zhǎng)達(dá)11小時(shí)的人類(lèi)運(yùn)動(dòng)記錄映射到大約6200多個(gè)以8個(gè)單詞成一句的英語(yǔ)句子中。





