日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁 > > AI科技大本營
[導(dǎo)讀]作者|?BenDickson來源?|數(shù)據(jù)實(shí)戰(zhàn)派這篇文章是我們對AI研究論文評論的一部分,這是一系列探索人工智能最新發(fā)現(xiàn)的文章。對于已經(jīng)精通圍棋、星際爭霸2和其他游戲的深度強(qiáng)化學(xué)習(xí)模型來說,人工智能系統(tǒng)的主要挑戰(zhàn)之一是它們無法將其能力泛化到訓(xùn)練領(lǐng)域之外。這種限制使得將這些系統(tǒng)應(yīng)用到...

DeepMind?的新強(qiáng)化學(xué)習(xí)系統(tǒng)是邁向通用?AI?的一步嗎?


作者 | Ben Dickson


來源 | 數(shù)據(jù)實(shí)戰(zhàn)派


這篇文章是我們對 AI 研究論文評論的一部分,這是一系列探索人工智能最新發(fā)現(xiàn)的文章。


對于已經(jīng)精通圍棋、星際爭霸 2 和其他游戲的深度強(qiáng)化學(xué)習(xí)模型來說,人工智能系統(tǒng)的主要挑戰(zhàn)之一是它們無法將其能力泛化到訓(xùn)練領(lǐng)域之外。這種限制使得將這些系統(tǒng)應(yīng)用到現(xiàn)實(shí)世界中變得非常困難,在現(xiàn)實(shí)世界中,情況比訓(xùn)練 AI 模型的環(huán)境復(fù)雜得多且不可預(yù)測。


最近,DeepMind 人工智能研究實(shí)驗(yàn)室的科學(xué)家根據(jù)一篇新的“開放式學(xué)習(xí)”倡議的博客文章中,聲稱已經(jīng)采取了“初步來訓(xùn)練一個能夠在不需要人類交互數(shù)據(jù)的情況下,玩許多不同游戲的代理”。他們的新項(xiàng)目包括一個具有真實(shí)動態(tài)的 3D 環(huán)境和可以學(xué)習(xí)解決各種挑戰(zhàn)的深度強(qiáng)化學(xué)習(xí)代理。


根據(jù) DeepMind 的人工智能研究人員的說法,新系統(tǒng)是“創(chuàng)建更通用的代理邁出的重要一步,該代理具有在不斷變化的環(huán)境中快速適應(yīng)的靈活性?!?/span>


該論文的發(fā)現(xiàn)表明,在將強(qiáng)化學(xué)習(xí)應(yīng)用于復(fù)雜問題方面取得了一些令人印象深刻的進(jìn)步。但它們也提醒人們,當(dāng)前的系統(tǒng)距離實(shí)現(xiàn)人工智能社區(qū)幾十年來直夢寐以求的通用智能能力還有多遠(yuǎn)。



DeepMind?的新強(qiáng)化學(xué)習(xí)系統(tǒng)是邁向通用?AI?的一步嗎?


深度強(qiáng)化學(xué)習(xí)的脆弱性



DeepMind?的新強(qiáng)化學(xué)習(xí)系統(tǒng)是邁向通用?AI?的一步嗎?


強(qiáng)化學(xué)習(xí)的主要優(yōu)勢在于可以在執(zhí)行動作和獲得反饋來發(fā)展行為的能力,類似于人類和動物通過與環(huán)境互動來學(xué)習(xí)的方式類似。一些科學(xué)家將強(qiáng)化學(xué)習(xí)描述為“首個智能計算理論”。


強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的結(jié)合,稱為深度強(qiáng)化學(xué)習(xí),是包括 DeepMind 著名的 AlphaGo 和 AlphaStar 模型在內(nèi)的許多強(qiáng)化 AI 的核心。在這兩種情況下,人工智能系統(tǒng)都能夠在各自的比賽中擊敗人類世界冠軍。


但強(qiáng)化學(xué)習(xí)系統(tǒng)的靈活性不足也是眾所周知的缺陷。例如,可以在專家級別玩星際爭霸 2 的強(qiáng)化學(xué)習(xí)模型將無法在任何能力級別玩具有類似機(jī)制的游戲(例如,魔獸爭霸 3)。即使對原始游戲稍有改動,也會大大降低 AI 模型的性能。


“這些智能體通常被限制只能玩他們接受過訓(xùn)練的游戲,雖然游戲的布局、初始條件、對手可能會變化,智能體必須滿足的目標(biāo)在訓(xùn)練和測試之間保持不變。偏離這一點(diǎn)可能會導(dǎo)致代理的災(zāi)難性失敗,”DeepMind 的研究人員在一篇論文中寫道,該論文提供了有關(guān)其開放式學(xué)習(xí)的全部細(xì)節(jié)。另一方面,人類非常擅長跨領(lǐng)域轉(zhuǎn)移知識。



DeepMind?的新強(qiáng)化學(xué)習(xí)系統(tǒng)是邁向通用?AI?的一步嗎?


XLand 環(huán)境



DeepMind?的新強(qiáng)化學(xué)習(xí)系統(tǒng)是邁向通用?AI?的一步嗎?


DeepMind 新項(xiàng)目的目標(biāo)是創(chuàng)建“一個人工智能,其行為的概括超出了它所訓(xùn)練的游戲集?!?/span>


為此,該團(tuán)隊(duì)創(chuàng)建了 XLand,這是一個可以生成由靜態(tài)拓?fù)浜涂梢苿訉ο蠼M成的 3D 環(huán)境的引擎。游戲引擎模擬了剛體物理學(xué),并允許玩家以各種方式使用對象(例如,創(chuàng)建斜坡、塊路徑等)。


XLand 是一個豐富的環(huán)境,可以在其中訓(xùn)練代理執(zhí)行幾乎無限數(shù)量的任務(wù)。XLand 的主要優(yōu)勢之一是能夠使用程序化規(guī)則自動生成大量環(huán)境和挑戰(zhàn)來訓(xùn)練 AI 代理。這解決了機(jī)器學(xué)習(xí)系統(tǒng)的主要挑戰(zhàn)之一,該系統(tǒng)通常需要大量手動策劃的訓(xùn)練數(shù)據(jù)。


根據(jù)博客文章,研究人員“在 XLand 中創(chuàng)建了數(shù)十億個任務(wù),跨越不同的游戲、世界和玩家。”這些游戲包括非常簡單的目標(biāo),例如在更復(fù)雜的設(shè)置中尋找對象,其中 AI 代理會權(quán)衡不同獎勵的收益和權(quán)衡。一些游戲包括涉及多個代理的合作或競爭元素。



DeepMind?的新強(qiáng)化學(xué)習(xí)系統(tǒng)是邁向通用?AI?的一步嗎?


深度強(qiáng)化學(xué)習(xí)



DeepMind 使用深度強(qiáng)化學(xué)習(xí)和一些聰明的技巧來創(chuàng)建可以在 XLand 環(huán)境中茁壯成長的 AI 代理。


每個代理的強(qiáng)化學(xué)習(xí)模型接收世界的第一人稱視角、代理的物理狀態(tài)(例如,是否持有對象)及其當(dāng)前目標(biāo)。每個代理微調(diào)其策略神經(jīng)網(wǎng)絡(luò)的參數(shù),以最大限度地提高當(dāng)前任務(wù)的回報。神經(jīng)網(wǎng)絡(luò)架構(gòu)包含一個注意力機(jī)制,以確保代理可以平衡完成主要目標(biāo)所需的子目標(biāo)的優(yōu)化。


一旦代理掌握了當(dāng)前的挑戰(zhàn),計算任務(wù)生成器就會為代理創(chuàng)建一個新的挑戰(zhàn)。每個新任務(wù)都是根據(jù)代理的訓(xùn)練歷史生成的,并有助于在各種挑戰(zhàn)中分配代理的技能。


DeepMind 還使用其龐大的計算資源對大量代理進(jìn)行并行培訓(xùn),并在不同的代理之間傳輸學(xué)習(xí)參數(shù),以提高強(qiáng)化學(xué)習(xí)系統(tǒng)的一般能力。


DeepMind?的新強(qiáng)化學(xué)習(xí)系統(tǒng)是邁向通用?AI?的一步嗎?


DEEPMind使用多步驟和基于人群的機(jī)制來培訓(xùn)許多強(qiáng)化學(xué)習(xí)代理


強(qiáng)化學(xué)習(xí)代理的性能是根據(jù)它們完成未經(jīng)訓(xùn)練的各種任務(wù)的一般能力來評估的。一些測試任務(wù)包括眾所周知的挑戰(zhàn),例如“奪旗”和“捉迷藏”。


根據(jù) DeepMind 的說法,每個代理在 XLand 的 4,000 個獨(dú)特世界中玩了大約 700,000 個獨(dú)特的游戲,并在 340 萬個獨(dú)特任務(wù)中經(jīng)歷了 2000 億個訓(xùn)練步驟(在論文中,研究人員寫道,1 億個步驟相當(dāng)于大約 30 分鐘的訓(xùn)練) .


AI 研究人員寫道:“此時,我們的代理已經(jīng)能夠參與每一個程序生成的評估任務(wù),除了少數(shù)甚至對人類來說都是不可能的?!?“而且我們看到的結(jié)果清楚地展示了整個任務(wù)空間的一般零樣本行為?!?/span>


零樣本機(jī)器學(xué)習(xí)模型可以解決訓(xùn)練數(shù)據(jù)集中不存在的問題。在 XLand 等復(fù)雜空間中,零樣本學(xué)習(xí)可能意味著代理已經(jīng)獲得了有關(guān)其環(huán)境的基本知識,而不是記住特定任務(wù)和環(huán)境中的圖像幀序列。


當(dāng)研究人員試圖為新任務(wù)調(diào)整它們時,強(qiáng)化學(xué)習(xí)代理進(jìn)一步表現(xiàn)出廣義學(xué)習(xí)的跡象。根據(jù)他們的發(fā)現(xiàn),對新任務(wù)進(jìn)行 30 分鐘的微調(diào),足以在使用新方法訓(xùn)練的強(qiáng)化學(xué)習(xí)代理中產(chǎn)生令人印象深刻的改進(jìn)。相比之下,在相同時間內(nèi)從頭開始訓(xùn)練的代理在大多數(shù)任務(wù)上的性能接近于零。



DeepMind?的新強(qiáng)化學(xué)習(xí)系統(tǒng)是邁向通用?AI?的一步嗎?


高級行為



根據(jù) DeepMind 的說法,強(qiáng)化學(xué)習(xí)代理表現(xiàn)出“啟發(fā)式行為”的出現(xiàn),例如工具使用、團(tuán)隊(duì)合作和多步計劃。如果得到證實(shí),這可能是一個重要的里程碑。深度學(xué)習(xí)系統(tǒng)經(jīng)常因?qū)W習(xí)統(tǒng)計相關(guān)性而不是因果關(guān)系而受到批評。如果神經(jīng)網(wǎng)絡(luò)能夠開發(fā)出高級概念,例如使用對象來創(chuàng)建斜坡或?qū)е抡趽?,它可能會對機(jī)器人和自動駕駛汽車等領(lǐng)域產(chǎn)生重大影響,而這些領(lǐng)域目前深度學(xué)習(xí)正在苦苦掙扎。


但這些都是重要的假設(shè),DeepMind 的研究人員對就他們的發(fā)現(xiàn)得出結(jié)論持謹(jǐn)慎態(tài)度。他們在博文中寫道:“鑒于環(huán)境的性質(zhì),很難確定意圖——我們看到的行為經(jīng)??雌饋硎桥既坏?,但我們?nèi)匀豢吹剿鼈兪冀K如一地發(fā)生。”


但是他們相信他們的強(qiáng)化學(xué)習(xí)代理“了解他們身體的基本知識和時間的流逝,并且他們了解他們遇到的游戲的高級結(jié)構(gòu)。”


這種基本的自學(xué)技能是人工智能社區(qū)備受追捧的另一個目標(biāo)。



DeepMind?的新強(qiáng)化學(xué)習(xí)系統(tǒng)是邁向通用?AI?的一步嗎?


智力理論



DeepMind?的新強(qiáng)化學(xué)習(xí)系統(tǒng)是邁向通用?AI?的一步嗎?


DeepMind 的一些頂尖科學(xué)家最近發(fā)表了一篇論文,其中他們假設(shè)單一獎勵和強(qiáng)化學(xué)習(xí)足以最終實(shí)現(xiàn)通用人工智能 (AGI)??茖W(xué)家們認(rèn)為,一個具有正確激勵機(jī)制的智能代理可以開發(fā)各種能力,例如感知和自然語言理解。


盡管 DeepMind 的新方法仍然需要在多個工程獎勵上訓(xùn)練強(qiáng)化學(xué)習(xí)代理,但這符合他們通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn) AGI 的一般觀點(diǎn)。


Pathmind 的首席執(zhí)行官 Chris Nicholson 告訴 TechTalks:“DeepMind 在這篇論文中表明,單個 RL 代理可以開發(fā)智能以實(shí)現(xiàn)多個目標(biāo),而不僅僅是一個目標(biāo),” “它在完成一件事時學(xué)到的技能可以推廣到其他目標(biāo)。這與人類智能的應(yīng)用方式非常相似。例如,我們學(xué)習(xí)抓取和操縱物體,這是實(shí)現(xiàn)從敲錘子到鋪床的目標(biāo)的基礎(chǔ)?!?/span>


Nicholson 還認(rèn)為,該論文發(fā)現(xiàn)的其他方面暗示了通向智能的進(jìn)展?!凹议L們會認(rèn)識到,開放式探索正是他們的孩子學(xué)會在世界中穿行的方式。他們從柜子里拿出一些東西,然后把它放回去。他們發(fā)明了自己的小目標(biāo)——這對成年人來說可能毫無意義——然后他們掌握了這些目標(biāo),”他說?!癉eepMind 正在以編程方式為其代理在這個世界上設(shè)定目標(biāo),而這些代理正在學(xué)習(xí)如何一一掌握它們?!?/span>


Nicholson 說,強(qiáng)化學(xué)習(xí)代理也顯示出在他們自己的虛擬世界中開發(fā)具身智能的跡象,就像人類一樣?!斑@又一次表明,人們學(xué)習(xí)穿越和操縱的豐富而可塑的環(huán)境有利于通用智能的出現(xiàn),智能的生物學(xué)和物理類比可以指導(dǎo)人工智能的進(jìn)一步工作,”他說。


南加州大學(xué)計算機(jī)科學(xué)副教授 Sathyanaraya Raghavachary 對 DeepMind 論文中的主張持懷疑態(tài)度,尤其是關(guān)于本體感覺、時間意識以及對目標(biāo)和環(huán)境的高級理解的結(jié)論。


“即使我們?nèi)祟愐矝]有完全意識到我們的身體,更不用說那些 VR 代理了,” Raghavachary 在對 TechTalks 的評論中說,并補(bǔ)充說,對身體的感知需要一個集成的大腦,該大腦被共同設(shè)計以實(shí)現(xiàn)合適的身體意識和空間位置。“與時間的流逝一樣——這也需要一個對過去有記憶的大腦,以及與過去相關(guān)的時間感。他們(論文作者)的意思可能與代理跟蹤由他們的行為(例如,由于移動紫色金字塔)導(dǎo)致的環(huán)境中的漸進(jìn)變化,底層物理模擬器將產(chǎn)生的狀態(tài)變化有關(guān)。


Raghavachary 還指出,如果代理能夠理解他們?nèi)蝿?wù)的高層結(jié)構(gòu),他們就不需要 2000 億步的模擬訓(xùn)練來達(dá)到最佳結(jié)果。


“底層架構(gòu)缺乏實(shí)現(xiàn)他們在結(jié)論中指出的這三件事(身體意識、時間流逝、理解高級任務(wù)結(jié)構(gòu))所需的東西,”他說?!翱偟膩碚f,XLand 只是‘大同小異’。”



DeepMind?的新強(qiáng)化學(xué)習(xí)系統(tǒng)是邁向通用?AI?的一步嗎?


模擬與現(xiàn)實(shí)世界的差距



簡而言之,這篇論文證明,如果你能夠創(chuàng)建一個足夠復(fù)雜的環(huán)境,設(shè)計正確的強(qiáng)化學(xué)習(xí)架構(gòu),并讓你的模型獲得足夠的經(jīng)驗(yàn)(并且有很多錢可以花在計算資源上),你將能夠泛化到同一環(huán)境中的各種任務(wù)。這基本上就是自然進(jìn)化賦予人類和動物智能的方式。


事實(shí)上,DeepMind 已經(jīng)對 AlphaZero 做了類似的事情,AlphaZero 是一種強(qiáng)化學(xué)習(xí)模型,能夠掌握多個兩人回合制游戲。XLand 實(shí)驗(yàn)通過添加零樣本學(xué)習(xí)元素將相同的概念擴(kuò)展到更高的水平。


但是,雖然我認(rèn)為 XLand 訓(xùn)練的代理的經(jīng)驗(yàn)最終會轉(zhuǎn)移到現(xiàn)實(shí)世界的應(yīng)用中,例如機(jī)器人和自動駕駛汽車,但我認(rèn)為這不會是一個突破。您仍然需要做出妥協(xié)(例如創(chuàng)建人為限制以降低現(xiàn)實(shí)世界的復(fù)雜性)或創(chuàng)建人為增強(qiáng)(例如將先驗(yàn)知識或額外傳感器注入機(jī)器學(xué)習(xí)模型)。


DeepMind 的強(qiáng)化學(xué)習(xí)代理可能已經(jīng)成為虛擬 XLand 的主人。但是他們的模擬世界甚至沒有真實(shí)世界的一小部分復(fù)雜性。在很長一段時間內(nèi),這種差距仍將是一個挑戰(zhàn)。


參考鏈接:


https://bdtechtalks.com/2021/08/02/deepmind-xland-deep-reinforcement-learning/


DeepMind?的新強(qiáng)化學(xué)習(xí)系統(tǒng)是邁向通用?AI?的一步嗎?



本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當(dāng)下,工業(yè)電機(jī)作為核心動力設(shè)備,其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護(hù)是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié),集成化方案的設(shè)計成為提升電機(jī)驅(qū)動性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機(jī) 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而,在實(shí)際應(yīng)用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護(hù)成本,還影響了用戶體驗(yàn)。要解決這一問題,需從設(shè)計、生...

關(guān)鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機(jī)驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設(shè)中,街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步,高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設(shè)計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機(jī)重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關(guān)鍵字: LED 驅(qū)動電源 開關(guān)電源

LED驅(qū)動電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動電源
關(guān)閉