日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀] 當前人工智能之機器學(xué)習(xí)算法主要有7大類:1)監(jiān)督學(xué)習(xí)(Supervised Learning),2)無監(jiān)督學(xué)習(xí)(Unsupervised Learning),3)半監(jiān)督學(xué)習(xí)(Semi-super

當前人工智能之機器學(xué)習(xí)算法主要有7大類:1)監(jiān)督學(xué)習(xí)(Supervised Learning),2)無監(jiān)督學(xué)習(xí)(Unsupervised Learning),3)半監(jiān)督學(xué)習(xí)(Semi-supervised Learning),4)深度學(xué)習(xí)(Deep Learning),5)強化學(xué)習(xí)(Reinforcement Learning),6)遷移學(xué)習(xí)(Transfer Learning),7)其他(Others)。

今天我們重點探討一下強化學(xué)習(xí)(RL)。

強化學(xué)習(xí)(RL),又稱再勵學(xué)習(xí)、評價學(xué)習(xí),是一種重要的機器學(xué)習(xí)方法,在智能控制機器人及分析預(yù)測等領(lǐng)域有許多應(yīng)用。

那么什么是強化學(xué)習(xí)?

強化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎勵信號(強化信號)函數(shù)值最大,強化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督學(xué)習(xí),主要表現(xiàn)在教師信號上,強化學(xué)習(xí)中由環(huán)境提供的強化信號是對產(chǎn)生動作的好壞作一種評價(通常為標量信號),而不是告訴強化學(xué)習(xí)系統(tǒng)RLS(reinforcement learning system)如何去產(chǎn)生正確的動作。由于外部環(huán)境提供的信息很少,RLS必須靠自身的經(jīng)歷或能力進行學(xué)習(xí)。通過這種方式,RLS在行動-評價的環(huán)境中獲得知識,改動方案以適應(yīng)環(huán)境。

通俗的講,就是當一個小孩學(xué)習(xí)有迷?;蚶Щ髸r,如果老師發(fā)現(xiàn)小孩方法或思路正確,就給他(她)正反饋(獎勵或鼓勵);否則就給他(她)負反饋(教訓(xùn)或懲罰),激勵小孩的潛能,強化他(她)自我學(xué)習(xí)能力,依靠自身的力量來主動學(xué)習(xí)和不斷探索,最終讓他(她)找到正確的方法或思路,以適應(yīng)外部多變的環(huán)境。

強化學(xué)習(xí)有別于傳統(tǒng)的機器學(xué)習(xí),不能立即得到標記,而只能得到一個反饋(獎或罰),可以說強化學(xué)習(xí)是一種標記延遲的監(jiān)督學(xué)習(xí)。強化學(xué)習(xí)是從動物學(xué)習(xí)、參數(shù)擾動自適應(yīng)控制等理論發(fā)展而來的。

強化學(xué)習(xí)原理:

如果Agent的某個行為策略導(dǎo)致環(huán)境正的獎賞(強化信號),那么Agent以后產(chǎn)生這個行為策略的趨勢加強。Agent的目標是在每個離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略以使期望的折扣獎賞和最大。

強化學(xué)習(xí)把學(xué)習(xí)看作試探評價過程,Agent選擇一個動作用于環(huán)境,環(huán)境接受該動作后狀態(tài)發(fā)生變化,同時產(chǎn)生一個強化信號(獎或懲)反饋給Agent,Agent根據(jù)強化信號和環(huán)境當前狀態(tài)再選擇下一個動作,選擇的原則是使受到正強化(獎)的概率增大。選擇的動作不僅影響立即強化值,而且影響環(huán)境下一時刻的狀態(tài)及最終的強化值。

若已知R/A梯度信息,則可直接可以使用監(jiān)督學(xué)習(xí)算法。因為強化信號R與Agent產(chǎn)生的動作A沒有明確的函數(shù)形式描述,所以梯度信息R/A無法得到。因此,在強化學(xué)習(xí)系統(tǒng)中,需要某種隨機單元,使用這種隨機單元,Agent在可能動作空間中進行搜索并發(fā)現(xiàn)正確的動作。

強化學(xué)習(xí)模型

強化學(xué)習(xí)模型包括下面幾個要素:

1) 規(guī)則(policy):規(guī)則定義了Agent在特定的時間特定的環(huán)境下的行為方式,可以視為是從環(huán)境狀態(tài)到行為的映射,常用 π來表示??梢苑譃閮深悾?/p>

確定性的policy(DeterminisTIc policy): a=π(s)

隨機性的policy(StochasTIc policy): π(a|s)=P[At=a|St=t]

其中,t是時間點,t=0,1,2,3,……

St∈S,S是環(huán)境狀態(tài)的集合,St代表時刻t的狀態(tài),s代表其中某個特定的狀態(tài);

At∈A(St),A(St)是在狀態(tài)St下的acTIons的集合,At代表時刻t的行為,a代表其中某個特定的行為。

2) 獎勵信號(areward signal):Reward是一個標量值,是每個TIme step中環(huán)境根據(jù)agent的行為返回給agent的信號,reward定義了在該情景下執(zhí)行該行為的好壞,agent可以根據(jù)reward來調(diào)整自己的policy。常用R來表示。

3) 值函數(shù)(valuefunction):Reward定義的是立即的收益,而value function定義的是長期的收益,它可以看作是累計的reward,常用v來表示。

4) 環(huán)境模型(a modelof the environment):整個Agent和Environment交互的過程可以用下圖來表示:

Agent作為學(xué)習(xí)系統(tǒng),獲取外部環(huán)境Environment的當前狀態(tài)信息St,對環(huán)境采取試探行為At,并獲取環(huán)境反饋的對此動作的評價Rt+1和新的環(huán)境狀態(tài)St+1 。如果Agent的某動作At導(dǎo)致環(huán)境Environment的正獎賞(立即報酬),那么Agent以后產(chǎn)生這個動作的趨勢便會加強;反之,Agent產(chǎn)生這個動作的趨勢將減弱。在強化學(xué)習(xí)系統(tǒng)的控制行為與環(huán)境反饋的狀態(tài)及評價的反復(fù)交互作用中,以學(xué)習(xí)的方式不斷修改從狀態(tài)到動作的映射策略,達到優(yōu)化系統(tǒng)性能目的。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設(shè)備,其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié),集成化方案的設(shè)計成為提升電機驅(qū)動性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而,在實際應(yīng)用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設(shè)計、生...

關(guān)鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設(shè)中,街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設(shè)計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關(guān)鍵字: LED 驅(qū)動電源 開關(guān)電源

LED驅(qū)動電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動電源
關(guān)閉