乍一看,F(xiàn)acebook新生的機器人平臺看起來有點混亂。在這家公司硅谷總部的一個新實驗室里,一只紅黑相間的Sawyer機器人手臂(來自最近倒閉的Rethink Robotics)不斷揮舞著,發(fā)出嗚嗚的機械聲。照理說,它應(yīng)該可以把手臂移動到右邊空間中的一個位置,但是它卻向上移動,偏離設(shè)置的方向,并重置到起始位置。終于,它的手臂向右移動了,非常接近目標位置。但是,它卻再次瘋狂地偏離了方向,不得不被再次重置。
不過,就像一只兔子為了躲避獵鷹而來回曲折,這個機器人看似瘋狂實際上卻是很聰明的。Facebook認為它既是開發(fā)更好機器人,也是開發(fā)更好人工智能的關(guān)鍵。也就是說,這個機器人正在自學(xué)探索世界。Facebook表示,未來有一天,將會出現(xiàn)像遠程呈現(xiàn)機器人一樣的智能機器。
當然,目前的機器人仍處于非常笨拙的狀態(tài)——一般來說,你必須用代碼為它們說明一切:這是你向前滾動的方式,這是你移動手臂的方式。我們?nèi)祟愒趯W(xué)習方式上要聰明得多。甚至嬰兒也明白,一個從視野中消失的物體并沒有從物理世界中消失。他們知道可以滾動球,但無法滾動沙發(fā)。從沙發(fā)上摔下來沒關(guān)系,但從懸崖上摔下來卻不是。
所有這些實驗都在你的大腦中建立了一個世界模型,這就是為什么你可以在學(xué)會駕駛汽車后,不會立馬撞車。Facebook首席人工智能科學(xué)家Yann LeCun說:“我們事先知道,如果開車靠近懸崖,然后向右轉(zhuǎn)動方向盤,汽車就會從懸崖上掉下來,不會有什么好事發(fā)生。”我們頭腦中有一個自學(xué)的模型,可以防止我們做傻事。Facebook也試圖給機器提供這種模式?!霸谖铱磥恚瑢W(xué)習世界模型的系統(tǒng)是在人工智能領(lǐng)域真正取得重大進展的下一個挑戰(zhàn),”LeCun補充道。
不過,F(xiàn)acebook的研究小組并不是第一個試圖讓機器人自學(xué)移動的團隊。在加州大學(xué)伯克利分校,一組研究人員使用了一種叫做強化學(xué)習的技術(shù),來教一個名叫Brett的雙臂機器人把一個方釘塞進一個方孔里。簡而言之,機器人嘗試了許許多多的隨機運動。如果在一次移動中更接近目標,系統(tǒng)會給它一個數(shù)字“獎勵”。如果它搞砸了,它會被數(shù)字“記過”。經(jīng)過多次反復(fù),尋求獎勵的機器人會讓它的手越來越靠近那個方孔,最后把釘子放進去。
讓機器人擁有“好奇心”
Facebook正在做的實驗有點不同?!拔覀兿胍獓L試的是灌輸這種好奇心的觀念,”Facebook人工智能研究科學(xué)家Franziska Meier說。人類就是這樣學(xué)會操縱物體的:孩子們被對世界的好奇心所驅(qū)使。他們嘗試新的東西,比如拽貓的尾巴,并不是因為他們必須這么做,而是他們想知道如果這樣做了會發(fā)生什么。
因此,盡管像Brett這樣的機器人會一點一點地完善自己的動作,但Facebook的機械臂卻可能會出現(xiàn)靠近目標時偏離方向的現(xiàn)象。這是因為研究人員沒有獎勵它增量成功,而是給予它嘗試非最佳動作的自由。它在嘗試新的東西,即使這些東西現(xiàn)在看起來并不特別理性。
每次移動都為系統(tǒng)提供數(shù)據(jù)。在每個關(guān)節(jié)上施加扭矩是為了把手臂移動到那個特定的位置。Meier說:“雖然沒有完成任務(wù),但它給了我們更多的數(shù)據(jù),我們通過這樣的探索獲得的數(shù)據(jù)種類比不探索時要多?!边@個概念被稱為自我監(jiān)督學(xué)習——機器人嘗試新事物并更新軟件模型,這可以幫助它預(yù)測其行為的后果。
這個想法是為了讓機器更靈活,對一項任務(wù)不那么專一。我們可以把它想象成完成一個迷宮。也許機器人知道它需要朝哪個方向前進才能找到出口。它可能會一次又一次地嘗試到達那里,即使它不可避免地會在那次追逐中陷入死胡同。奧斯陸大學(xué)機器人專家Tnnes Nygaard說:“由于你如此專注于向那個方向移動,你可能會走進角落?!彼呀?jīng)開發(fā)出一種四足機器人,可以自己學(xué)會走路。(Facebook也在嘗試讓一個六腿機器人自己行走,但是在我參觀實驗室的時候該公司尚未能進行展示。)“與其如此專注于說,我想朝著我知道解決方案所在的方向前進,不如我試著專注于探索。我將嘗試尋找新的解決方案?!?/p>
所以Facebook的機器人手臂做出的那些看似不連貫的動作實際上是一種好奇心,正是這種好奇心可以讓機器更容易適應(yīng)環(huán)境。想象一下一個家用機器人正試圖填裝洗碗機。也許它認為把杯子放在頂部架子上最有效的方法是從側(cè)面拿過來,在這種情況下杯子會碰到架子的邊緣。從某種意義上說,這是確定性的:一次又一次的反復(fù)嘗試,讓它走上這條不太理想的道路,在這條道路上,它試圖更好地側(cè)向裝載,但現(xiàn)在它無法備份并嘗試新的東西。另一方面,一個充滿好奇心的機器人可以通過實驗和學(xué)習,了解到從上面進來實際上是最好的方法。它是靈活的,不是決定性的,這在理論上允許它更容易適應(yīng)動態(tài)的人類環(huán)境。
模擬無法替代現(xiàn)實
現(xiàn)在,一種更簡單、更快捷的教機器人做事的方法是模擬。也就是說,建立一個數(shù)字世界,比如說,一個動畫棒形人物,讓它教自己用同樣的試錯法運行。這種方法相對較快,因為當數(shù)字“機器”不受現(xiàn)實物理定律的約束時,迭代會快得多。
盡管模擬可能更有效,但它并不是真實世界的完美表現(xiàn)——你無法完全模擬動態(tài)人類環(huán)境的復(fù)雜性。因此,盡管研究人員已經(jīng)能夠訓(xùn)練機器人首先在模擬中做一些事情,然后將這些知識傳遞給現(xiàn)實世界中的機器人,但這種轉(zhuǎn)變極其混亂,因為數(shù)字世界和物理世界是不匹配的。
在現(xiàn)實世界中做任何事情可能會更慢、更費力,但從某種意義上來說,你得到的數(shù)據(jù)更純粹。Facebook人工智能研究科學(xué)家Roberto Calandra說:“如果它在現(xiàn)實世界中有效,那它實際上就是有效的?!比绻阍谠O(shè)計極其復(fù)雜的機器人,你無法模擬他們將要應(yīng)對的人類世界的混亂。但它們必須繼續(xù)生存下去。隨著我們給機器人的任務(wù)變得越來越復(fù)雜,這一點尤為重要。在工廠生產(chǎn)線上提升車門的機器人相對來說很容易編碼,但卻無法在混亂的家庭中導(dǎo)航。機器人將不得不憑借創(chuàng)造力自行適應(yīng),這樣它就不會被困在反饋回路中。一個程序員不能對每一個障礙都進行編程。
Facebook的項目是人工智能和機器人完美結(jié)合的一部分。傳統(tǒng)上,這些世界很大程度上是封閉的。是的,機器人總是需要人工智能來自主操作,就像使用機器視覺來感知世界一樣。但是,盡管像谷歌、亞馬遜和Facebook這樣的科技巨頭推動了純數(shù)字環(huán)境下人工智能發(fā)展的重大進步——讓計算機識別圖像中的物體,例如,讓人類先給這些物體貼上標簽——但機器人仍然相當愚笨,因為研究人員一直專注于讓物體在不摔倒的情況下移動。
隨著人工智能研究人員開始使用機器人作為平臺來完善軟件算法,這種情況開始改變。例如,F(xiàn)acebook可能想教機器人自己解決一系列任務(wù)。這反過來可能會為人工智能助手的發(fā)展提供信息,它們可以更好地為你、為用戶,計劃一系列的行動?!斑@是同一個問題,”LeCun說。“如果你能在一個環(huán)境中解決它,那么你也可以在另一個環(huán)境中解決?!?/p>
換句話說,人工智能正在使機器人變得更聰明,但是機器人現(xiàn)在也在幫助推進人工智能?!霸S多與人工智能相關(guān)的有趣問題——特別是人工智能的未來,比如我們?nèi)绾尾拍苓_到人類水平的人工智能——目前正由機器人領(lǐng)域的工作人員來解決,”LeCun說?!耙驗槟悴荒苡脵C器人作弊。你不能讓成千上萬的人給你貼標簽?!?/p>
當然,我們?nèi)匀挥幸蓡?,像Facebook這樣的數(shù)字巨獸想要機器人做什么?目前,該公司表示這項研究與特定的產(chǎn)品渠道無關(guān)。
但是請記住,F(xiàn)acebook從事于人際關(guān)系業(yè)務(wù)(也從事廣告銷售業(yè)務(wù))。“我們認為機器人技術(shù)將是其中的一個重要組成部分——想想遠程呈現(xiàn)之類的東西,”LeCun說。畢竟,F(xiàn)acebook已經(jīng)是一家硬件公司,生產(chǎn)了視頻會議設(shè)備Oculus VR系統(tǒng)和Portal。“這種邏輯上的連續(xù)性也許是你可以從遠處控制的事情。”
但我們正在超越自己。迄今為止,除了Roomba,每一個家庭機器人都失敗了,部分原因是這些機器不夠智能或不夠有用。是的,沒有機器人能夠特別聰明,但是,也許Facebook這個揮動的機械臂可以幫助解決這個問題。





