日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 智能硬件 > 人工智能AI
[導讀] 近年來隨著強化學習的發(fā)展,使得智能體選擇恰當行為以實現(xiàn)目標的能力得到迅速地提升。目前研究領(lǐng)域主要使用兩種方法:一種是無模型(model-free)的強化學習方法,通過試錯的方式來學習預(yù)測成功的行

近年來隨著強化學習的發(fā)展,使得智能體選擇恰當行為以實現(xiàn)目標的能力得到迅速地提升。目前研究領(lǐng)域主要使用兩種方法:一種是無模型(model-free)的強化學習方法,通過試錯的方式來學習預(yù)測成功的行為,其中著名的方法包括用于完成雅達利游戲的DeepMind的DQN方法和在星際爭霸二中與世界冠軍同臺競技的AlphaStar,但這類方法需要與環(huán)境進行大量的交互限制了其在真實場景中的應(yīng)用。

而基于模型(model-based)的強化學習方法則額外學習一個簡化的環(huán)境模型,這一環(huán)境模型使得主體可以預(yù)測潛在行為序列的輸出,使得它可以通過假設(shè)的場景來在新環(huán)境中作出明智的決策,減少了實現(xiàn)目標所需的試錯。先前學習精確的世界模型并將其充分應(yīng)用于行為學習中還面臨一系列挑戰(zhàn),但隨著近來像深度規(guī)劃網(wǎng)絡(luò)(DeepPlanningNetwork, PlaNet)的研究出現(xiàn),極大地拓展了從圖像中學習出精確世界模型的邊界,但基于模型的方法卻依然受到規(guī)劃(planning)機制龐大計算消耗的約束,限制了其在解決復(fù)雜任務(wù)上的應(yīng)用。

為了解決這些問題,來自谷歌和DeepMind的研究人員合作提出了一種基于圖像學習出世界模型(world model)的強化學習方法Dreamer,并在此基礎(chǔ)上學習出有遠見的行為。Dreamer基于模型預(yù)測的反向傳播來利用世界模型實現(xiàn)高效的行為學習。通過從原始圖像輸入中計算出緊致的模型狀態(tài),這種方法可以使得主體在單個GPU上并行地從上千個預(yù)測序列中進行高效的學習。通過20個基于原始圖像輸入的連續(xù)控制基準任務(wù)上測評表明,Dreamer在性能、數(shù)據(jù)效率和計算時間上都達到了先進水平。

Dreamer的基本架構(gòu)

Dreamer和典型的基于模型方法一樣包含三個過程:學習世界模型、基于世界模型的預(yù)測學習行為、在環(huán)境中執(zhí)行學習到的行為來收集新的經(jīng)驗。為了學習行為,Dreamer中利用價值網(wǎng)絡(luò)(valuenetwork )將規(guī)劃視野外的獎勵納入考量,同時利用行為網(wǎng)絡(luò)(actor network)來高效的計算行為。這三部分可以并行地執(zhí)行,一直重復(fù)運行直到達成目標:

Dreamer主體的三個過程,世界模型基于過去經(jīng)驗學習、隨后基于這一模型預(yù)測,主體通過價值網(wǎng)絡(luò)來預(yù)測未來獎勵、行為網(wǎng)絡(luò)來選擇行為。行為網(wǎng)絡(luò)用于與環(huán)境交互。

學習世界模型

Dreamer采用了PlaNet的世界模型,通過一系列緊致的模型狀態(tài)來預(yù)測輸出,而這些模型狀態(tài)則通過輸入圖像計算得到,而不是直接利用圖像來進行處理。它將自動學習得出代表有益于預(yù)測未來輸出概念的模型狀態(tài),例如目標類型、位置以及目標與周圍環(huán)境的交互等等。給定數(shù)據(jù)集中一個過去的圖像、行為和獎勵序列,Dreamer按照下圖的方式進行世界模型的學習:

Dreamer 從經(jīng)驗中學習世界模型,利用過去的圖像(o1–o3)、行為(a1–a2),它將計算出緊致的模型狀態(tài)(綠色圓),并可以基于這些狀態(tài)重建出圖像并預(yù)測出獎勵。

利用PlaNet世界模型的優(yōu)勢在于利用緊致的模型狀態(tài)代替了圖像來進行預(yù)測,極大地提高了計算效率。這使得模型可以在單個GPU上預(yù)并行的預(yù)測上千個序列。這種方式同時可以提高模型的泛化性,進行精確的長時視頻預(yù)測。為了更好地理解模型的工作原理,下圖展示了將預(yù)測序列模型狀態(tài)解碼回圖像的結(jié)果:

復(fù)雜環(huán)境下的長程預(yù)測結(jié)果,上圖顯示了兩個主體未曾遇到過的序列,給定五張輸入圖像,模型對其進行重建并預(yù)測出了后續(xù)到50步的圖像結(jié)果。

高效行為學習

先前基于模型的主體選擇行為的方法分為兩種,要么通過多個模型預(yù)測來進行規(guī)劃、要么通過將世界模型代替模擬器來復(fù)用無模型方法的技術(shù),但兩種方法都需要龐大的計算需求,同時也未充分利用學習到的世界模型。此外及時強大的世界模型也會受制于精確預(yù)測的長度,很多先前基于模型的主體表現(xiàn)出短視的缺點。Dreamer通過世界模型的預(yù)測進行反向傳播學習價值網(wǎng)絡(luò)和行為網(wǎng)絡(luò)來克服上述局限。

Dreamer通過預(yù)測的狀態(tài)序列反向傳播獎勵來高效地學習行為網(wǎng)絡(luò)用于預(yù)測正確的行為,這在無模型方法中是無法實現(xiàn)的。這將告訴Dreamer其多小的行為變化將會影響未來預(yù)測的獎勵,使得它可以向最大化獎勵的方向上優(yōu)化行為網(wǎng)絡(luò)。為了考慮預(yù)測范圍外的獎勵,價值網(wǎng)絡(luò)將估計每一個模型狀態(tài)未來的獎勵和,獎勵和價值將反向傳播來優(yōu)化行為網(wǎng)絡(luò)去改善行為。

Dreamer通過模型狀態(tài)預(yù)測序列來學習長程行為,首先學習每個狀態(tài)的長程價值,而后通過反向傳播到行為網(wǎng)絡(luò)來預(yù)測能夠得到高價值和獎勵的行為。

Dreamer與PlaNet有諸多不同,在環(huán)境中的給定狀態(tài)下,PlaNet在不同行為序列的多個預(yù)測中搜索最佳行為,而Dreamer則避開了這種計算消耗巨大的搜索方式,利用規(guī)劃和行為解耦的方式來提高計算效率。一旦在預(yù)測序列上訓練好了行為網(wǎng)絡(luò),它將計算與環(huán)境交互的行為而無需額外的搜索。此外Dreamer利用價值函數(shù)考慮到了規(guī)劃以外的獎勵并通過反向傳播提高了規(guī)劃的效率。

控制任務(wù)上的表現(xiàn)

為了測試Dreamer的性能,研究人員在20個不同的任務(wù)上對其進行了測評,包括平衡、控制、運動等多種復(fù)雜的強化學習任務(wù)。

多種復(fù)雜的任務(wù),其輸入為圖像。包括了碰撞、稀疏獎勵、混沌動力學和高自由度甚至三維視角等復(fù)雜情況。

研究人員將Dreamer與多個先進的模型進行了比較,包括先前最先進的基于模型的方法PlaNet、無模型方法A3C、結(jié)合多種先進手段的無模型方法D4PG。實驗表明,基于模型的主體可以在五百萬幀內(nèi)完成高效學習,大概對應(yīng)28小時的仿真,而無模型的方法則需要近100萬幀的學習,大概對應(yīng)23天的仿真訓練。在20個任務(wù)的測評基準上,Dreamer領(lǐng)先于目前最先進的無模型方法D4PG(平均分823>786),同時其與環(huán)境的交互大概要少二十倍。此外它最終的結(jié)果在所有任務(wù)上也超過了先前最好的基于模型方法PlaNet,最終的結(jié)果如下圖所示:

Dreamer的性能與其他方法的比較,其得分、數(shù)據(jù)效率和計算時間都比先前方法要好。

此外研究人員還在連續(xù)任務(wù)上進行了實驗,以驗證Dreamer面對復(fù)雜環(huán)境的能力。下面的任務(wù)需要不僅需要長程行為預(yù)測,同時還需要模型具有空間感知能力。實驗表明Dreamer對于這些更具挑戰(zhàn)的任務(wù)依然能夠很好的進行處理:

Dreamer成功的在雅達利游戲和DeepMind環(huán)境中運行,這些離散的任務(wù)更具挑戰(zhàn)性。

Dreamer不僅在性能上超越了原有基于模型的方法,同時在計算效率上也大幅提升。研究人員認為Dreamer將為強化學習提供更為堅實的發(fā)展根基,同時也將促進更好的表示學習、基于不確定性的方向探索、時域抽象和多任務(wù)學習的發(fā)展。
? ? ? ?

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設(shè)備,其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié),集成化方案的設(shè)計成為提升電機驅(qū)動性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而,在實際應(yīng)用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設(shè)計、生...

關(guān)鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設(shè)中,街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設(shè)計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關(guān)鍵字: LED 驅(qū)動電源 開關(guān)電源

LED驅(qū)動電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動電源
關(guān)閉