久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

OpenAI最新發(fā)現(xiàn):在參數(shù)空間增加噪聲,易于實現(xiàn),并能輕松加快學(xué)習(xí)速度

本文作者: 汪思穎 編輯:楊曉凡 2017-07-29 23:06
導(dǎo)語:通過在網(wǎng)絡(luò)的參數(shù)空間中加入噪聲,可以獲得遠(yuǎn)優(yōu)于在網(wǎng)絡(luò)的行為空間中增加噪聲的表現(xiàn)。更簡單的方法,更優(yōu)秀的效果。

雷鋒網(wǎng) AI科技評論按:OpenAI最新發(fā)現(xiàn)表明,通過在網(wǎng)絡(luò)的參數(shù)空間中加入噪聲,可以獲得遠(yuǎn)優(yōu)于在網(wǎng)絡(luò)的行為空間中增加噪聲的表現(xiàn)。此外,他們發(fā)布了一系列基準(zhǔn)代碼,覆蓋多個網(wǎng)絡(luò)。

雷鋒網(wǎng) AI科技評論編譯如下:

OpenAI實驗室最新發(fā)現(xiàn):頻繁地給增強學(xué)習(xí)算法中的參數(shù)增加自適應(yīng)噪聲后,能得到更好的結(jié)果。這種方法實現(xiàn)簡單,基本上不會導(dǎo)致結(jié)果變差,值得在任何問題上嘗試。

OpenAI最新發(fā)現(xiàn):在參數(shù)空間增加噪聲,易于實現(xiàn),并能輕松加快學(xué)習(xí)速度

圖1:加入行為空間噪聲訓(xùn)練的模型

OpenAI最新發(fā)現(xiàn):在參數(shù)空間增加噪聲,易于實現(xiàn),并能輕松加快學(xué)習(xí)速度

圖2:加入?yún)?shù)空間噪聲訓(xùn)練的模型

參數(shù)噪聲可以幫助算法高效地探索出合適的動作范圍,在環(huán)境中獲得優(yōu)良表現(xiàn)。如圖1、圖2所示,經(jīng)過216個episode的訓(xùn)練之后,沒有加入?yún)?shù)噪音的DDPG會頻繁產(chǎn)生低效的奔跑行為,而加入?yún)?shù)噪聲訓(xùn)練之后產(chǎn)生的奔跑行為得分更高。

增加參數(shù)噪聲后,智能體學(xué)習(xí)任務(wù)的速度變得更快,遠(yuǎn)優(yōu)于其他方法帶來的速度增長。在半獵豹運動環(huán)境(圖1、圖2)中經(jīng)過20個episode的訓(xùn)練之后,這項策略的得分在3000分左右,而采用傳統(tǒng)動作噪音訓(xùn)練的策略只能得到1500分左右。

參數(shù)噪聲方法是將自適應(yīng)噪聲加在神經(jīng)網(wǎng)絡(luò)策略的參數(shù)中,而不是加在行為空間。傳統(tǒng)的增強學(xué)習(xí)(RL)利用行為空間噪聲來改變智能體每一刻執(zhí)行的動作的可能性。參數(shù)空間噪聲使智能體的參數(shù)直接增加了隨機性,改變了智能體做出的決策的類型,使它們總是能完全依賴于對當(dāng)前環(huán)境的感知。這種技術(shù)介于進化策略(可以控制智能體的參數(shù),但是當(dāng)它在每一步中探索環(huán)境時,不會再次影響它的行為)和類似TRPO、DQN、DDPG這樣的深度增強學(xué)習(xí)方法之間 (不能控制參數(shù),但可以在策略的行為空間上增加噪聲)。

OpenAI最新發(fā)現(xiàn):在參數(shù)空間增加噪聲,易于實現(xiàn),并能輕松加快學(xué)習(xí)速度

圖3:左邊是行為空間噪聲,右邊是參數(shù)空間噪聲

參數(shù)噪聲可以讓算法更高效的探索環(huán)境,得到更高的分?jǐn)?shù)和更優(yōu)雅的動作。因為有意的在策略參數(shù)中增加噪聲,能使智能體在不同時刻的探索保持一致,而在行為空間中增加噪聲,會讓探索過程更加難以預(yù)測,這種探索過程也就與智能體的參數(shù)沒有特定的關(guān)聯(lián)性。

人們之前曾嘗試過將參數(shù)噪聲應(yīng)用于策略梯度。在OpenAI的探索之下,這種方法現(xiàn)在可以用在更多地方了,比如用在基于深度神經(jīng)網(wǎng)絡(luò)的策略中,或是用在基于策略和策略無關(guān)的算法中。

 OpenAI最新發(fā)現(xiàn):在參數(shù)空間增加噪聲,易于實現(xiàn),并能輕松加快學(xué)習(xí)速度

圖4:加入行為空間噪聲訓(xùn)練的模型

OpenAI最新發(fā)現(xiàn):在參數(shù)空間增加噪聲,易于實現(xiàn),并能輕松加快學(xué)習(xí)速度

圖5:加入?yún)?shù)空間噪聲訓(xùn)練的模型

如圖4、圖5所示,增加參數(shù)空間噪聲后可以在賽車游戲中獲得更高的分?jǐn)?shù)。經(jīng)過2個episode的訓(xùn)練,訓(xùn)練中在參數(shù)空間增加噪聲的DDQN網(wǎng)絡(luò)學(xué)會了加速和轉(zhuǎn)彎,而訓(xùn)練中在行為空間增加了噪聲的網(wǎng)絡(luò)展現(xiàn)出的動作豐富程度就要弱很多。

在進行這項研究時他們遇到了如下三個問題:

  • 不同層數(shù)的網(wǎng)絡(luò)對擾動的敏感性不同。

  • 在訓(xùn)練過程中,策略權(quán)重的敏感性可能會隨著時間改變,這導(dǎo)致預(yù)測策略的行動變得很難。

  • 選取合適的噪聲很困難,因為很難直觀地理解訓(xùn)練過程中參數(shù)噪音是怎么影響策略的。

第一個問題可以用層級歸一化來解決,這可以保證受到了擾動的層的輸出(這個輸出是下一個層級的輸入)與未受擾動時的分布保持相似。

可以引入一種自適應(yīng)策略來調(diào)整參數(shù)空間擾動的大小,來處理第二和第三個問題。這一調(diào)整是這樣實現(xiàn)的:測量擾動對行為空間的影響和行為空間噪聲與預(yù)定目標(biāo)之間的差異(更大還是更?。_@一技巧把選擇噪聲大小的問題引入行為空間,比參數(shù)空間具有更好的解釋性。

選擇基準(zhǔn),進行benchmark

OpenAI發(fā)布了一系列基準(zhǔn)代碼,為DQN、雙DQN(Double DQN)、決斗DQN(Dueling DQN)、雙決斗DQN(Dueling Double DQN)和DDPG整合了這種技術(shù)。

OpenAI最新發(fā)現(xiàn):在參數(shù)空間增加噪聲,易于實現(xiàn),并能輕松加快學(xué)習(xí)速度

此外,也發(fā)布了DDQN在有無參數(shù)噪聲下玩部分Atari游戲性能的基準(zhǔn)。另外還有DDQN三個變體在Mujoco模擬器中一系列連續(xù)控制任務(wù)下的性能基準(zhǔn)。

研究過程

在第一次進行這項研究時,OpenAI發(fā)現(xiàn)應(yīng)用到DQN的Q函數(shù)中的擾動有時候太極端了,導(dǎo)致算法重復(fù)執(zhí)行相同的動作。為了解決這個問題,他們添加了一個獨立的策略表達(dá)流程,能夠像在DDPG中一樣明顯的表示出策略(在普通的DQN網(wǎng)絡(luò)中,Q函數(shù)只能隱含的表示出策略),使設(shè)置與其他的實驗更相似。

然而,在為這次發(fā)布準(zhǔn)備代碼時,他們做了一次實驗,在使用參數(shù)空間噪聲時沒有加獨立的策略策略表達(dá)流程。

他們發(fā)現(xiàn)實驗的結(jié)果與增加獨立策略表達(dá)流程之后的結(jié)果很相似,但實現(xiàn)起來更簡單。進一步的實驗證實獨立的策略頭確實是多余的,因為算法很可能在早期的實驗中就得到了改進(他們改變了調(diào)節(jié)噪聲的方式)。這種方法更簡單、更具有可行性,降低了訓(xùn)練算法的成本,并且能得到相似的結(jié)果。

重要的是要記住,AI算法(特別是在增強學(xué)習(xí)中)可能會出現(xiàn)一些細(xì)微的失敗,這種失敗會導(dǎo)致人們尋找解決方案的時候很難對癥下藥。

雷鋒網(wǎng) AI科技評論編譯。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

OpenAI最新發(fā)現(xiàn):在參數(shù)空間增加噪聲,易于實現(xiàn),并能輕松加快學(xué)習(xí)速度

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說