亚洲国产精品久久久久秋霞影院 _91麻豆精品秘密_欧美gv在线观看_2018av在线_国产精品一区二区你懂得_国产精品亚洲二区_aaa国产精品视频_www.久久久久久久久_狠狠久久亚洲欧美专区_日韩成人动漫

 
當前位置: 首頁 » 行業資訊 » 機器人»伯克利最新無模型深度強化學習研究:從零開始訓練機器人玩樂高
   

伯克利最新無模型深度強化學習研究:從零開始訓練機器人玩樂高

 46.1K
     [點擊復制]
放大字體  縮小字體 發布日期:2018-03-29   瀏覽次數:450
核心提示:現現在,經由歷久的研討試驗證實,無模子深度強化進修在視頻游戲、模仿機械人把持和活動等范疇具有優越的機能表示。但是,盡人皆知,當與情況的交互時光無限的情形下,無模子辦法的表示其實不佳,就像年夜多半實際世

現現在,經由歷久的研討試驗證實,無模子深度強化進修在視頻游戲、模仿機械人把持和活動等范疇具有優越的機能表示。但是,盡人皆知,當與情況的交互時光無限的情形下,無模子辦法的表示其實不佳,就像年夜多半實際世界中的機械人義務一樣。在本文中,我們研討了若何可以或許將應用soft Q-learning練習的最年夜熵戰略運用于實際世界中的機械人把持義務。這類辦法之所以可以或許在實際世界中的運用重要得益于soft Q-learning的兩個主要特點:起首,soft Q-learning可以經由過程進修具有表達性的基于能量的模子所表現的戰略(energy-based models),從而進修多形式摸索戰略。其次,我們展現了經由過程soft Q-learning所進修的戰略可以構成新戰略,而且終究戰略的最優性可以依據組合戰略之間的不合來界定。這類組合性為實際世界的把持義務供給了一個特殊有價值的對象,個中,經由過程對現有的技巧停止組合進而結構出新的戰略,可以在從零開端的練習中供給效力上的年夜幅進步。我們的試驗評價成果注解,相較于以往的無模子深度強化進修辦法,soft Q-learning具有更高的樣本效力,而且可以對模仿和實際世界的義務履行組合性。

我們,應用一種稱為soft Q-learning的最年夜熵強化進修算法,對Sawyer機械人停止練習使其可以或許將樂高積木疊加在一路。從零開端對一個戰略停止練習須要不到兩個小時的時光,而且已進修事物戰略攪擾(左圖)具有很強的魯棒性。我們還展現了該若何將學到的戰略組合起來構成新的復合技巧,例如在避開樂高積木塔的情形下停止堆疊操作(右圖)。

具有表達性的通用目標函數近似器(如神經收集),與可用于獲得龐雜行動戰略的通用目標無模子強化進修算法的交集,無望完成普遍的機械人行動的主動化:強化進修供給了用于推理序列決議計劃的情勢主義,而年夜型神經收集供給了表征,準繩上,可以用于應用起碼的手工工程來來表現任何行動。但是,經由理論證實,將具有多層神經收集表現(即深度強化進修)的無模子強化進修算法運用于實際世界中的機械人掌握成績,這一進程長短常艱苦的:無模子辦法的樣本龐雜性相當高,而且因為年夜容量函數近似器的包涵性,龐雜性還將進一步進步。在以往的研討中,專家們試圖經由過程在多個機械人上并行化進修來減緩這些成績,好比應用實例演示[,或模仿練習,并依附準確的模子完成向實際世界的遷徙。一切這些辦法都帶有附加的假定和局限性。那末,我們能否可以設計出一種無模子強化進修算法,這類算法可以或許在不依附模仿、演示或多個機械人的情形下,直接對實際世界中的多層神經收集模子停止高效練習?

我們假定,基于以下兩點性質,最年夜熵道理可認為現實的、實際世界的深度強化進修供給一個有用的框架。起首,最年夜熵戰略經由過程玻爾茲曼散布(Boltzmann distribution)表達了一個隨機戰略,供給了一種內涵的、明智的摸索戰略,它,其能量對應于reward-to-go或Q函數。此散布為一切操作分派一個非零幾率,但希冀報答更高的操作更能夠被采樣。是以,該戰略將主動把摸索引向報答更高的區域。這類特征可以被看做是摸索和開辟的軟組合,在現實運用中長短常無益的,由于它供給了比貪心摸索(greedy exploration)更多的構造,而且正如我們試驗所展現的那樣,這年夜年夜進步了樣本的龐雜性。其次,正如我們在文章中所展現的那樣,自力練習的最年夜熵戰略可以經由過程增長Q函數而其組合在一路,從而為歸并后的嘉獎函數發生一個新的戰略,該戰略被證實近乎于響應的最優戰略。在現實運用中,掌握器的可組合性尤其主要,而這在尺度強化進修中是弗成能的。在這些運用中,反復應用曩昔的經歷可以極年夜地進步義務的樣本效力(這些義務可以天然地分化為更簡略的子成績)。例如,拾取和放置的戰略可以分化為(1)達到指定的X坐標(2)達到指定的Y坐標(3)躲避妨礙。是以,這類可分化的戰略可以分三個階段進修,每一個階段發生一個子戰略,而這些此戰略隨后可以在須要與情況停止交互的情形下停止離線組合。

對兩個自力的戰略停止練習,從而響應地推進圓柱到橙色線和藍色線。黑色圓圈顯示了針對響應戰略的圓柱達到終究地位的樣本。當戰略組合在一路時,生成的戰略會進修將圓柱體推到線的下穿插點(綠色圓圈表現終究地位)。沒有來自情況的附加樣本用于對組合戰略停止練習。組合戰略進修知足兩個原始目的,而不是簡略地均勻終究圓柱地位。

本文的重要進獻是在最新提出的soft Q-learning(SQL)算法的基本上,提出了一種應用具有表達性的神經收集戰略進修機械人操作技巧的進修框架。我們證實了,該進修框架為進修各類機械人技巧供給了一種有用的機制,而且在現實機械人體系的樣本效力方面優于今朝最早進的無模子深度強化進修辦法。我們的試驗成果注解,在很年夜的水平上,SQL的機能要遠遠優于深度肯定性戰略梯度(DDPG)和歸一化優勢函數(NAF),這些算法曩昔曾被用于應用神經收集摸索實際世界中的無模子機械人進修。我們還演示了對SQL算法的全新的擴大,即應用它對之前進修過的技巧停止組合。我們提出了一個關于組合戰略和組合嘉獎函數最優戰略之間差異的實際界線,它實用于SQL和其他基于軟優化的強化進修辦法。在試驗中,我們應用最年夜熵戰略在模仿范疇和物理范疇的組合性,展現了分歧技巧的魯棒性進修,而且在樣本效力方面超出了現有的最早進的辦法。

當在Sawyer機械人長進行練習以將其末尾履行器挪動到特定地位時,DDPG(綠色)、NAF(白色)和SQL(藍色)的進修曲線。SQL的進修速度比其他辦法快很多。我們還經由過程將希冀的地位銜接到不雅察向量(橙色)以練習SQL到達隨機采樣的末尾履行器地位。SQL學會盡快處理這個義務。SQL曲線顯示10個輪數中的挪動均勻值。

在本文中,我們商量了若何將soft Q-learning擴大到實際世界中的機械人操作義務中,既可以進修單個操作義務,也能夠進修可以或許構成新戰略的組合義務。我們的試驗注解,實質下去說,soft Q-learning的機能要遠遠優于無模子深度強化進修。在模仿達到義務中,soft Q-learning具有比NAF更好的機能,個中包含多個戰略組合以達到新地位的情形。除此以外,在Sawyer機械人停止評價的真實世界義務的履行中,soft Q-learning的機能上勝過DDPG。該辦法具有更好的穩固性和收斂性,而且經由過程soft Q-learning取得的對Q函數停止組合的才能可使其在實際世界的機械人場景中特殊有效,個中針對每一個新嘉獎身分組合的新戰略停止再練習是耗時且昂貴的。

在不到兩個小時的時光里,便可以學會一個樂高堆疊戰略。進修到的戰略對攪擾聚于很強的魯棒性:當機械人被推動到一個與典范軌跡完整分歧的狀況后,它可以或許恢復并勝利地將樂高積木堆在一路。

在研討最年夜熵戰略的可組合性時,我們推導出了組合戰略與組合嘉獎函數的最優戰略之間誤差的界線。這一界線注解熵值較高的戰略能夠更輕易停止組合。在將來,一項成心義的研討偏向是探訪這一束縛對組合性的影響。例如,我們能否可以推導出一個可運用于組合Q函數的修改,以削減誤差?答復如許的成績,會使得從先前練習過的構建塊中創立新的機械人技巧變得加倍現實,這使得機械人更輕易取得經由過程強化進修所學到的年夜量行動。

只要你關注機器人,你就無法錯過睿慕課

 
 
 
[ 行業資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關閉窗口 ]
 
 
亚洲国产精品久久久久秋霞影院 _91麻豆精品秘密_欧美gv在线观看_2018av在线_国产精品一区二区你懂得_国产精品亚洲二区_aaa国产精品视频_www.久久久久久久久_狠狠久久亚洲欧美专区_日韩成人动漫
欧美日韩久久一区| 日本女人一区二区三区| 欧美一级黄色大片| 欧美美女bb生活片| 7777精品伊人久久久大香线蕉超级流畅 | 国产精品久久久久一区二区三区| 久久蜜臀中文字幕| 久久久影视传媒| 久久久亚洲精品一区二区三区 | 国产精品毛片大码女人| 国产精品福利av| 亚洲男人天堂一区| 亚洲第四色夜色| 青青草97国产精品免费观看无弹窗版 | 日本一区二区电影| 中文字幕亚洲成人| 一区二区免费在线| 五月婷婷欧美视频| 久久99热99| 成人激情免费电影网址| 99视频一区二区三区| 国产经典一区二区三区| 欧美久久久久久久| 一区二区精品视频| 5月丁香婷婷综合| 久久精品亚洲乱码伦伦中文| 中文字幕日本乱码精品影院| 亚洲国产成人av网| 久久99国产精品久久99果冻传媒| 国产成人一区在线| 999精品视频一区二区三区| 久久国产一区二区| 一级做a爰片久久| 欧美高清一级片在线| 精品国产露脸精彩对白| 国产精品久久久久久久久久免费看 | 国产aⅴ综合色| 2020国产精品久久精品不卡| 国产色综合一区二区三区| 欧洲精品久久| 欧洲av在线精品| 欧美mv和日韩mv国产网站| 国产精品久久久久久久午夜片 | 国产自产2019最新不卡| 成人精品电影在线观看| 国产在线精品二区| 中文有码久久| 日韩欧美国产午夜精品| 国产精品毛片无遮挡高清| 五月天亚洲婷婷| 成人性色生活片| 久久精品日韩| 欧美午夜影院一区| 国产人成一区二区三区影院| 亚洲成人资源在线| 国产91精品露脸国语对白| 国内外成人免费视频| 色偷偷久久人人79超碰人人澡| 日韩精品一区二区三区四区视频 | 亚洲一级二级在线| 国产一区二区三区四区五区入口 | 婷婷四房综合激情五月| 4438成人网| 亚洲视频小说图片| 麻豆一区二区在线| 成人av电影免费| 91久久人澡人人添人人爽欧美| 精品美女一区二区三区| 一区二区三区.www| 国产.精品.日韩.另类.中文.在线.播放| 激情视频一区二区| 欧美揉bbbbb揉bbbbb| 国产精品久久久久久亚洲毛片 | 国产一区二区三区高清视频| 91黄色免费看| 欧美激情一区二区三区全黄| 日韩av网站免费在线| 3d动漫精品啪啪一区二区三区免费| 亚洲高清乱码| 久久看人人爽人人| 日韩av电影天堂| 国产高清一区视频| 精品视频免费看| 亚洲美女免费视频| 成人精品视频一区二区三区尤物| 日韩欧美一区二区在线观看| 精品国产一区二区三区久久久蜜月| 亚洲图片自拍偷拍| www.日韩大片| 色网综合在线观看| 国产精品盗摄一区二区三区| 国产一区欧美日韩| 欧美在线播放一区二区| 精品国产三级电影在线观看| 日韩精品成人一区二区三区 | 亚洲欧美日韩在线综合| 2014亚洲片线观看视频免费| 无码av中文一区二区三区桃花岛| 96av麻豆蜜桃一区二区| 色88888久久久久久影院野外| 国产精品免费久久| 国产精品综合久久| 亚洲精品人成| 国产精品视频第一区| 国产麻豆9l精品三级站| 神马影院我不卡午夜| 国产亚洲欧美日韩日本| 经典三级在线一区| 视频一区免费观看| 国产精品美女www爽爽爽| 国产成人精品三级麻豆| 中国成人在线视频| 亚洲欧美日韩国产综合在线| 不卡视频一二三四| 欧美日韩国产精品自在自线| 亚洲一二三四久久| 国产精品区二区三区日本| 日韩一区二区高清| 日韩av网站免费在线| 女女同性女同一区二区三区91| 精品少妇一区二区三区视频免付费 | 久久精品国产精品亚洲红杏| 欧美最大成人综合网| 国产女人水真多18毛片18精品视频| 国产一区91精品张津瑜| 综合久久国产| 亚洲综合男人的天堂| 国产精品国产亚洲精品看不卡15| 欧美不卡在线视频| 韩国av一区二区三区在线观看| 中文字幕成人一区| 一级做a爱片久久| 国产精品我不卡| 久久久午夜精品理论片中文字幕| 国产在线一区观看| 欧美在线观看一区| 日韩成人av影视| 亚洲国产精品一区在线观看不卡| 18涩涩午夜精品.www| 5566中文字幕一区二区| 日韩久久久久久| 国产精品香蕉一区二区三区| 欧美性受xxxx黑人xyx性爽| 天天综合网 天天综合色| 秋霞在线观看一区二区三区| 日韩一区在线播放| 国产日韩欧美一区二区三区四区 | 国产精品1024| 欧美日韩免费电影| 蜜桃视频一区二区三区 | 精品日韩一区二区三区免费视频| 国产麻豆精品一区二区| 欧美日韩精品一区视频| 久久国产剧场电影| 欧美色男人天堂| 麻豆精品久久精品色综合| 色美美综合视频| 舔着乳尖日韩一区| 一本久道久久综合中文字幕| 日韩高清欧美激情| 色综合久久久久久久久| 青娱乐精品视频| 在线国产亚洲欧美| 久久国产夜色精品鲁鲁99| 欧美日韩中文字幕一区二区| 伦理电影国产精品| 欧美日韩在线综合| 国产乱码精品1区2区3区| 欧美老女人第四色| 国内精品久久久久影院薰衣草| 欧美日韩国产综合视频在线观看| 精品一区二区三区香蕉蜜桃| 欧美精品日韩综合在线| 国产经典欧美精品| 日韩视频一区在线观看| 成人99免费视频| 久久久精品免费网站| 成人在线免费网站| **网站欧美大片在线观看| 免费av一区二区三区| 一区二区三区精品视频在线| 午夜精品短视频| 美女一区二区在线观看| 欧美剧情电影在线观看完整版免费励志电影| 精品一区二区影视| 日韩一级视频免费观看在线| 99精品久久只有精品| 国产日韩三级在线| 精品乱码一区二区三区| 亚洲最新在线观看| 中文字幕日韩一区二区三区不卡| 另类小说综合欧美亚洲| 这里只有精品电影| 91农村精品一区二区在线| 中文字幕在线观看一区二区| 日韩av在线电影观看| 日本成人在线不卡视频| 欧美剧在线免费观看网站| 99精品国产热久久91蜜凸| 中文字幕日本乱码精品影院|