Google如何讓機器狗實現(xiàn)像真正的狗一樣運動
(文章來源:中國機器人網(wǎng))
再現(xiàn)動物的多樣化和敏捷性運動技能一直是機器人技術(shù)中的長期挑戰(zhàn)。
在過去盡管手動設計的控制器已經(jīng)能夠模擬許多復雜的行為,但是構(gòu)建這樣的控制器涉及耗時且困難的開發(fā)過程,常常需要掌握每種技能的細微差別的大量專業(yè)知識。強化學習為自動化控制器開發(fā)中涉及的人工工作提供了一種頗具吸引力的選擇,但是,設計能夠從第三方行為中引發(fā)所需行為的學習目標,也可能需要大量專門技能。
但谷歌最近的一個視頻中展現(xiàn)了一種新的可能。前段時間谷歌AI實驗室的一組研究人員正在努力開發(fā)四足的像狗一樣的機器人,該機器人的成果已經(jīng)得到了證明,該機器人通過研究真正的狗如何運動來學習狗的行為。該團隊已在Google AI博客上發(fā)布了他們正在做的工作的大綱。
谷歌AI博客本周發(fā)表的文章寫道,其研究人員開發(fā)出一種人工智能系統(tǒng),可以從動物的動作中學習,從而賦予機器人更大的靈活性。研究人員認為他們的方法可以促進機器人的發(fā)展,這些機器人可以完成現(xiàn)實世界中的任務,比如在多層倉庫和配送中心之間運輸物品。
通過模仿生物的動作來訓練機器人來執(zhí)行任務并不是什么新鮮事,例如,建造汽車的機器人手臂被教導如何模仿人類手臂的預期動作來點焊或擰緊螺栓。但是通過向機器人展示真實的狗的視頻來教機器人絕對是全新的想法,而這就是Google前段時間所做的研究。
在這項工作中,他們提供了一個模仿學習系統(tǒng),使有腿機器人可以通過模仿真實世界的動物來學習敏捷的運動技能。證明了通過利用參考運動數(shù)據(jù),一種基于學習的方法能夠自動綜合控制器,以解決腿式機器人的各種指令庫行為。通過將有效的領(lǐng)域自適應樣本技術(shù)整合到訓練過程中,谷歌的這套系統(tǒng)能夠?qū)W習模擬中的自適應策略,然后可以快速將其用于實際部署。為了證明其系統(tǒng)的有效性,他們訓練了一個18自由度的四足機器人來執(zhí)行各種敏捷行為,包括從不同的運動步態(tài)到動態(tài)的跳躍和轉(zhuǎn)彎。
在他們的研究放出的視頻中,該機器人是一只名為Laikago的四足動物,名字來源是緊隨Laika之后的(它是太空中的第一只狗),谷歌的研究人員通過向機器人展示真實狗的運動捕捉畫面,訓練它像真正的狗一樣走路,奔跑,行動、甚至是像真的狗一樣追逐它自己的尾巴。該團隊的框架采用動物(本案例中是一條狗)的動作捕捉片段,并使用強化學習(reinforcement learning)來訓練控制策略。為系統(tǒng)提供不同的參考動作,使得研究人員能夠“教”一個四足的Unitree Laikago機器人完成一系列動作,比如從快走(以每小時2.6英里的速度)到跳躍或轉(zhuǎn)彎。
為了驗證他們的方法,研究人員首先收集了一組真實狗狗的各種技能數(shù)據(jù)。(訓練主要是在物理模擬中進行的,因此可以密切跟蹤參考運動的姿態(tài))。然后,通過在獎勵函數(shù)中使用不同的動作(該函數(shù)描述了行為者應該如何表現(xiàn)),研究人員使用了大約2億個樣本來訓練一個模擬機器人模仿動作技能。
但是模擬器通常只能提供對真實世界的粗略近似。為了解決這個問題,研究人員采用了一種適應性技術(shù),通過改變機器人的質(zhì)量和摩擦等物理量來隨機化模擬中的動力學。這些值是用編碼器映射到一個數(shù)字表示(即編碼)作為輸入傳遞給機器人控制策略。當將該策略部署到一個真實的機器人上時,研究人員刪除了編碼器,并搜索出一組允許機器人成功執(zhí)行技能的變量。
但視頻實際上首先是由AI系統(tǒng)進行處理的,該系統(tǒng)會將視頻中的動作轉(zhuǎn)換為Laikago的動畫版本。為了找出可能的解釋錯誤,該團隊向AI系統(tǒng)顯示了一只真實狗在行動的多個定格視頻(因為數(shù)字狗是由金屬,電線和馬達而不是骨頭,肌肉和肌腱制成的)。AI系統(tǒng)根據(jù)現(xiàn)實世界中可能遇到的場景,建立可能動作的工具集。一旦模擬建立了知識庫,就將其“大腦”上載到Laikago,然后Laikago將模擬中學到的知識作為自己行為的起點。
行動中的Laikago視頻顯示,該技術(shù)確實行之有效。但該團隊表示,他們能夠在大約50次試驗中,利用不到8分鐘的真實數(shù)據(jù),使一項策略適應現(xiàn)實世界。此外,他們還演示了現(xiàn)實世界中的機器人學會了模仿狗的各種動作,包括踱步和小跑,以及動畫中的關(guān)鍵幀動作,如動態(tài)跳躍轉(zhuǎn)彎。
論文作者寫道:“我們證明,通過利用參考運動數(shù)據(jù),一種單一的基于學習的方法能夠為腿式機器人的各種行為自動合成控制器。”“通過將高效樣本的領(lǐng)域適應技術(shù)整合到訓練過程中,我們的系統(tǒng)能夠在模擬中學習適應策略,然后能夠快速適應現(xiàn)實世界的部署?!?/p>
機器狗能夠像真正的狗一樣走路和行走,甚至模擬了追逐它的尾巴,但是,與其他先進的機器人動物(例如,來自Boston Dynamics的那些動物)相比,它也有一些不足之處,因為這些動物只是通過隨機編程來獲得技能,靈活性遠遠不夠,控制策略也并不完美——由于算法和硬件的限制,它不能學習高度動態(tài)的行為,如大的跳躍和行為,也不像最好的手動設計的控制器那樣穩(wěn)定。例如,機器狗跌跌撞撞或絆倒后重新站起來仍然很麻煩。
但是Google的研究人員并不畏懼,他們相信更多的研究將使他們的機器人帶來越來越逼真的行為。研究人員將繼續(xù)改進控制器的魯棒性,并開發(fā)能夠從其他運動數(shù)據(jù)來源(如視頻剪輯)學習的框架。.
? ? ?





