人工智能可模擬下一秒的事 通過(guò)生成視頻讓人信服
機(jī)器有大腦嗎?當(dāng)然沒(méi)有,即便有,也是人類(lèi)植入的,它始終還是需要人類(lèi)操控。但是,一旦它們掌握了人類(lèi)的某種能力,其爆發(fā)出來(lái)的潛能將是不可限量和估計(jì)的。近日,美國(guó)麻省理工學(xué)院的AI科學(xué)家,發(fā)明了一個(gè)系統(tǒng),使得機(jī)器人能夠像人類(lèi)一樣模擬接下來(lái)可能發(fā)生的事情,并自動(dòng)生成一個(gè)短視頻,其真實(shí)程度比人類(lèi)自己在大腦中想象的還要逼真。
一種新的人工智能系統(tǒng)能夠用靜態(tài)圖像生成短視頻,這些視頻能夠模擬接下來(lái)發(fā)生的事,這就好像人類(lèi)想象接下來(lái)將會(huì)看到的情景一樣。
人類(lèi)能夠直覺(jué)地理解世界運(yùn)作的方式。這使得人比機(jī)器更容易預(yù)測(cè)事件接下來(lái)將如何發(fā)展。一張靜態(tài)圖像中的物體可以用多種不同方式運(yùn)動(dòng),或者和其他物體發(fā)生作用,這讓機(jī)器很難做出類(lèi)似的預(yù)測(cè)。不過(guò),一種新型的深度學(xué)習(xí)系統(tǒng)(deep-learning system)創(chuàng)造出的短視頻卻能夠讓人信以為真。和真實(shí)的視頻片段相比,在20%的情況下,人類(lèi)更相信它創(chuàng)造出的視頻。
該深度學(xué)習(xí)系統(tǒng)的發(fā)明者是麻省理工學(xué)院(MIT)的研究人員。他們讓兩種神經(jīng)網(wǎng)絡(luò)互相競(jìng)爭(zhēng),其中一個(gè)要區(qū)分真實(shí)的視頻和機(jī)器創(chuàng)造的視頻,而另一個(gè)則要?jiǎng)?chuàng)造出能夠打敗第一個(gè)系統(tǒng)的近乎真實(shí)的視頻。
這種方法叫做“生成式對(duì)抗網(wǎng)絡(luò)”(generative adversarial network,GAN),兩個(gè)系統(tǒng)互相競(jìng)爭(zhēng),生成了愈發(fā)真實(shí)的視頻。當(dāng)研究人員讓亞馬遜的Mechanical Turk網(wǎng)絡(luò)眾包平臺(tái)上征集的人員從兩種視頻中挑選真實(shí)的視頻時(shí),這些人在20%的情況下挑選了機(jī)器合成的,而不是真實(shí)的視頻。
早期的問(wèn)題
但是,剛剛?cè)胄械碾娪皩?dǎo)演還不用擔(dān)心這種機(jī)器會(huì)搶了自己的飯碗,因?yàn)檫@些視頻的長(zhǎng)度只有1~1.5秒,而且像素只有64 x 64。研究人員認(rèn)為,這種方法最終能夠幫助機(jī)器人和自動(dòng)駕駛汽車(chē)在復(fù)雜的環(huán)境中導(dǎo)航,也能幫助它們和人類(lèi)互動(dòng),或者讓Facebook為視頻自動(dòng)添加描述內(nèi)容的標(biāo)簽。
“我們的算法會(huì)預(yù)測(cè)未來(lái),然后生成極為真實(shí)的視頻。這說(shuō)明在某種程度上它能夠理解現(xiàn)在發(fā)生的事,”該研究的主要負(fù)責(zé)人,MIT計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室的博士研究生 Carl Vondrick 表示,“我們的研究是一項(xiàng)振奮人心的進(jìn)步,它說(shuō)明計(jì)算機(jī)科學(xué)家能夠讓機(jī)器具有更高級(jí)的情境理解能力。”
研究人員表示,這種系統(tǒng)還可以在沒(méi)有人指導(dǎo)的情況下進(jìn)行學(xué)習(xí)。這意味著該系統(tǒng)進(jìn)行訓(xùn)練所用的200萬(wàn)個(gè)視頻(大約等于一年的長(zhǎng)度)并不需要人類(lèi)的標(biāo)記。這能極大地減少訓(xùn)練所需的時(shí)間,并能讓其適應(yīng)新數(shù)據(jù)。
在西班牙巴塞羅那召開(kāi)的神經(jīng)信息處理系統(tǒng)大會(huì)(Conference and Workshop on Neural Information Processing Systems)上,研究人員展示了他們的研究成果,解釋了他們是怎樣用海灘、火車(chē)站、醫(yī)院和高爾夫球場(chǎng)的視頻對(duì)該系統(tǒng)進(jìn)行訓(xùn)練的。
“我們發(fā)現(xiàn),早期的原型系統(tǒng)面臨的難點(diǎn)在于,模型預(yù)測(cè)視頻的背景將要變形扭曲,” Vondrick 表示。為了克服這個(gè)問(wèn)題,他們調(diào)整了設(shè)計(jì),讓系統(tǒng)學(xué)習(xí)獨(dú)立的靜態(tài)背景模型和動(dòng)態(tài)前景模型,然后再把它們合起來(lái)制成視頻。
“這個(gè)計(jì)算機(jī)模型對(duì)世界是沒(méi)有任何預(yù)設(shè)的,它必須學(xué)習(xí)人的樣子、物體移動(dòng)的方式和結(jié)果,”Vondrick表示,“我們的模型還沒(méi)有完全學(xué)成。如果能擴(kuò)充它理解如物體之類(lèi)的高級(jí)概念的能力,那么生成的視頻質(zhì)量將會(huì)顯著提高。”
Vondrick表示,未來(lái)的另一個(gè)挑戰(zhàn)是生成更長(zhǎng)的視頻,因?yàn)檫@就需要系統(tǒng)花更長(zhǎng)的時(shí)間去追蹤場(chǎng)景物體之間的更多關(guān)系。
“要完成這一任務(wù),可能需要人類(lèi)的輸入來(lái)幫助系統(tǒng)理解場(chǎng)景中的元素,因?yàn)樽屗约簩W(xué)習(xí)會(huì)比較艱難。”





