人工智能之強(qiáng)化學(xué)習(xí)(RL)
原創(chuàng) 張志榮 來(lái)著公眾號(hào)“科技優(yōu)化生活”
當(dāng)前人工智能之機(jī)器學(xué)習(xí)算法主要有7大類(lèi):1)監(jiān)督學(xué)習(xí)(Supervised Learning),2)無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning),3)半監(jiān)督學(xué)習(xí)(Semi-supervised Learning),4)深度學(xué)習(xí)(Deep Learning),5)強(qiáng)化學(xué)習(xí)(Reinforcement Learning),6)遷移學(xué)習(xí)(Transfer Learning),7)其他(Others)。
對(duì)于1)- 4)部分內(nèi)容,請(qǐng)查看公眾號(hào)“科技優(yōu)化生活”之前相關(guān)文章。 ^_^
今天我們重點(diǎn)探討一下強(qiáng)化學(xué)習(xí)(RL)。

強(qiáng)化學(xué)習(xí)(RL),又稱(chēng)再勵(lì)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí),是一種重要的機(jī)器學(xué)習(xí)方法,在智能控制機(jī)器人及分析預(yù)測(cè)等領(lǐng)域有許多應(yīng)用。
那么什么是強(qiáng)化學(xué)習(xí)?
強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)信號(hào)(強(qiáng)化信號(hào))函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督學(xué)習(xí),主要表現(xiàn)在教師信號(hào)上,強(qiáng)化學(xué)習(xí)中由環(huán)境提供的強(qiáng)化信號(hào)是對(duì)產(chǎn)生動(dòng)作的好壞作一種評(píng)價(jià)(通常為標(biāo)量信號(hào)),而不是告訴強(qiáng)化學(xué)習(xí)系統(tǒng)RLS(reinforcement learning system)如何去產(chǎn)生正確的動(dòng)作。由于外部環(huán)境提供的信息很少,RLS必須靠自身的經(jīng)歷或能力進(jìn)行學(xué)習(xí)。通過(guò)這種方式,RLS在行動(dòng)-評(píng)價(jià)的環(huán)境中獲得知識(shí),改動(dòng)方案以適應(yīng)環(huán)境。
通俗的講,就是當(dāng)一個(gè)小孩學(xué)習(xí)有迷?;蚶Щ髸r(shí),如果老師發(fā)現(xiàn)小孩方法或思路正確,就給他(她)正反饋(獎(jiǎng)勵(lì)或鼓勵(lì));否則就給他(她)負(fù)反饋(教訓(xùn)或懲罰),激勵(lì)小孩的潛能,強(qiáng)化他(她)自我學(xué)習(xí)能力,依靠自身的力量來(lái)主動(dòng)學(xué)習(xí)和不斷探索,最終讓他(她)找到正確的方法或思路,以適應(yīng)外部多變的環(huán)境。
強(qiáng)化學(xué)習(xí)有別于傳統(tǒng)的機(jī)器學(xué)習(xí),不能立即得到標(biāo)記,而只能得到一個(gè)反饋(獎(jiǎng)或罰),可以說(shuō)強(qiáng)化學(xué)習(xí)是一種標(biāo)記延遲的監(jiān)督學(xué)習(xí)。強(qiáng)化學(xué)習(xí)是從動(dòng)物學(xué)習(xí)、參數(shù)擾動(dòng)自適應(yīng)控制等理論發(fā)展而來(lái)的。

強(qiáng)化學(xué)習(xí)原理:
如果Agent的某個(gè)行為策略導(dǎo)致環(huán)境正的獎(jiǎng)賞(強(qiáng)化信號(hào)),那么Agent以后產(chǎn)生這個(gè)行為策略的趨勢(shì)加強(qiáng)。Agent的目標(biāo)是在每個(gè)離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略以使期望的折扣獎(jiǎng)賞和最大。
強(qiáng)化學(xué)習(xí)把學(xué)習(xí)看作試探評(píng)價(jià)過(guò)程,Agent選擇一個(gè)動(dòng)作用于環(huán)境,環(huán)境接受該動(dòng)作后狀態(tài)發(fā)生變化,同時(shí)產(chǎn)生一個(gè)強(qiáng)化信號(hào)(獎(jiǎng)或懲)反饋給Agent,Agent根據(jù)強(qiáng)化信號(hào)和環(huán)境當(dāng)前狀態(tài)再選擇下一個(gè)動(dòng)作,選擇的原則是使受到正強(qiáng)化(獎(jiǎng))的概率增大。選擇的動(dòng)作不僅影響立即強(qiáng)化值,而且影響環(huán)境下一時(shí)刻的狀態(tài)及最終的強(qiáng)化值。
若已知R/A梯度信息,則可直接可以使用監(jiān)督學(xué)習(xí)算法。因?yàn)閺?qiáng)化信號(hào)R與Agent產(chǎn)生的動(dòng)作A沒(méi)有明確的函數(shù)形式描述,所以梯度信息R/A無(wú)法得到。因此,在強(qiáng)化學(xué)習(xí)系統(tǒng)中,需要某種隨機(jī)單元,使用這種隨機(jī)單元,Agent在可能動(dòng)作空間中進(jìn)行搜索并發(fā)現(xiàn)正確的動(dòng)作。
強(qiáng)化學(xué)習(xí)模型
強(qiáng)化學(xué)習(xí)模型包括下面幾個(gè)要素:
1) 規(guī)則(policy):規(guī)則定義了Agent在特定的時(shí)間特定的環(huán)境下的行為方式,可以視為是從環(huán)境狀態(tài)到行為的映射,常用 π來(lái)表示。可以分為兩類(lèi):
確定性的policy(Deterministic policy): a=π(s)
隨機(jī)性的policy(Stochastic policy): π(a|s)=P[At=a|St=t]
其中,t是時(shí)間點(diǎn),t=0,1,2,3,……
St∈S,S是環(huán)境狀態(tài)的集合,St代表時(shí)刻t的狀態(tài),s代表其中某個(gè)特定的狀態(tài);
At∈A(St),A(St)是在狀態(tài)St下的actions的集合,At代表時(shí)刻t的行為,a代表其中某個(gè)特定的行為。
2) 獎(jiǎng)勵(lì)信號(hào)(areward signal):Reward是一個(gè)標(biāo)量值,是每個(gè)time step中環(huán)境根據(jù)agent的行為返回給agent的信號(hào),reward定義了在該情景下執(zhí)行該行為的好壞,agent可以根據(jù)reward來(lái)調(diào)整自己的policy。常用R來(lái)表示。
3) 值函數(shù)(valuefunction):Reward定義的是立即的收益,而value function定義的是長(zhǎng)期的收益,它可以看作是累計(jì)的reward,常用v來(lái)表示。
4) 環(huán)境模型(a modelof the environment):整個(gè)Agent和Environment交互的過(guò)程可以用下圖來(lái)表示:

Agent作為學(xué)習(xí)系統(tǒng),獲取外部環(huán)境Environment的當(dāng)前狀態(tài)信息St,對(duì)環(huán)境采取試探行為At,并獲取環(huán)境反饋的對(duì)此動(dòng)作的評(píng)價(jià)Rt+1和新的環(huán)境狀態(tài)St+1 。如果Agent的某動(dòng)作At導(dǎo)致環(huán)境Environment的正獎(jiǎng)賞(立即報(bào)酬),那么Agent以后產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便會(huì)加強(qiáng);反之,Agent產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)將減弱。在強(qiáng)化學(xué)習(xí)系統(tǒng)的控制行為與環(huán)境反饋的狀態(tài)及評(píng)價(jià)的反復(fù)交互作用中,以學(xué)習(xí)的方式不斷修改從狀態(tài)到動(dòng)作的映射策略,達(dá)到優(yōu)化系統(tǒng)性能目的。

強(qiáng)化學(xué)習(xí)設(shè)計(jì)考慮:
1)如何表示狀態(tài)空間和動(dòng)作空間。
2)如何選擇建立信號(hào)以及如何通過(guò)學(xué)習(xí)來(lái)修正不同狀態(tài)-動(dòng)作對(duì)的值。
3)如何根據(jù)這些值來(lái)選擇適合的動(dòng)作。
強(qiáng)化學(xué)習(xí)常見(jiàn)算法:
強(qiáng)化學(xué)習(xí)的常見(jiàn)算法包括:1)時(shí)間差分學(xué)習(xí)(Temporal difference learning);2)Q學(xué)習(xí)(Q learning);3)學(xué)習(xí)自動(dòng)(LearningAutomata);4)狀態(tài)-行動(dòng)-回饋-狀態(tài)-行動(dòng)(State-Action-Reward-State-Action)等。

強(qiáng)化學(xué)習(xí)目標(biāo):
強(qiáng)化學(xué)習(xí)通過(guò)學(xué)習(xí)從環(huán)境狀態(tài)到行為的映射,使得智能體選擇的行為能夠獲得環(huán)境最大的獎(jiǎng)賞,使得外部環(huán)境對(duì)學(xué)習(xí)系統(tǒng)在某種意義下的評(píng)價(jià)(或整個(gè)系統(tǒng)的運(yùn)行性能)為最佳。簡(jiǎn)單的說(shuō),強(qiáng)化學(xué)習(xí)的目標(biāo)是動(dòng)態(tài)地調(diào)整參數(shù),達(dá)到強(qiáng)化信號(hào)最大。
強(qiáng)化學(xué)習(xí)應(yīng)用前景:
前段時(shí)間被刷屏的機(jī)器人,大家一定不陌生吧,來(lái)自波士頓動(dòng)力的機(jī)器人憑借出色的平衡性給大家留下了深刻的印象。機(jī)器人控制領(lǐng)域就使用了大量的強(qiáng)化學(xué)習(xí)技術(shù)。除此之外,游戲、3D圖像處理、棋類(lèi)(2016年備受矚目的AlphaGo圍棋)、等領(lǐng)域都有應(yīng)用。

機(jī) 器 人

游 戲

3D 圖 像 處 理

人 機(jī) 大 戰(zhàn)
結(jié)語(yǔ):
強(qiáng)化學(xué)習(xí)是通過(guò)對(duì)未知環(huán)境一邊探索一邊建立環(huán)境模型以及學(xué)習(xí)得到一個(gè)最優(yōu)策略。強(qiáng)化學(xué)習(xí)與其他機(jī)器學(xué)習(xí)算法不同的地方在于沒(méi)有監(jiān)督者,只有一個(gè)Reward信號(hào),而且反饋是延遲的。強(qiáng)化學(xué)習(xí)是人工智能之機(jī)器學(xué)習(xí)中一種快速、高效且不可替代的學(xué)習(xí)算法,實(shí)際上強(qiáng)化學(xué)習(xí)是一套很通用的解決人工智能問(wèn)題的框架,值得人們?nèi)パ芯?。另外,深度學(xué)習(xí)[參見(jiàn)人工智能(22)]和強(qiáng)化學(xué)習(xí)相結(jié)合,不僅給強(qiáng)化學(xué)習(xí)帶來(lái)端到端優(yōu)化便利,而且使得強(qiáng)化學(xué)習(xí)不再受限于低維空間,極大地拓展了強(qiáng)化學(xué)習(xí)的使用范圍。谷歌DeepMind中深度強(qiáng)化學(xué)習(xí)領(lǐng)頭人David Silver曾經(jīng)說(shuō)過(guò),深度學(xué)習(xí)(DL)+ 強(qiáng)化學(xué)習(xí)(RL) = 人工智能(AI)。
---------------------------------------------------------------
更多有關(guān)AI/ML文章,敬請(qǐng)關(guān)注“科技優(yōu)化生活”微信公眾號(hào),謝謝!
Copyright ? 2005-2020 www.allweyes.cn | All Rights Reserved 粵ICP備05105686號(hào)
Hello, please leave your name and email here before chat online so that we won't miss your message and contact you smoothly.