聯合隨機性策略的深度強化學習探索方法
所屬分類:技術論文
上傳者:zhoubin333
文檔大小:679 K
標簽: 強化學習 深度強化學習 探索利用困境
所需積分:0分積分不夠怎么辦?
文檔介紹: 目前深度強化學習算法已經可以解決許多復雜的任務,然而如何平衡探索和利用的關系仍然是強化學習領域的一個基本的難題,為此提出一種聯合隨機性策略的深度強化學習探索方法。該方法利用隨機性策略具有探索能力的特點,用隨機性策略生成的經驗樣本訓練確定性策略,鼓勵確定性策略在保持自身優勢的前提下學會探索。通過結合確定性策略算法DDPG和提出的探索方法,得到基于隨機性策略指導的確定性策略梯度算法(SGDPG)。在多個復雜環境下的實驗表明,面對探索問題,SGDPG的探索效率和樣本利用率要優于DDPG算法。
現在下載
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。
主站蜘蛛池模板: 偷偷做久久久久网站| 国产私拍福利精品视频推出| 久久精品aⅴ无码中文字字幕重口| 猫扑两性色午夜视频免费| 国产午夜无码精品免费看动漫| 97精品依人久久久大香线蕉97| 成人永久福利免费观看| 久久综合精品国产一区二区三区 | 狠狠精品干练久久久无码中文字幕| 国产亚洲Av综合人人澡精品| 你懂得视频在线观看| 天天在线欧美精品免费看| 中文字幕日韩人妻不卡一区| 最近免费中文字幕mv在线电影 | 成人性爱视频在线观看| 久草视频资源在线观看| 欧美日韩在线国产| 伊人天堂av无码av日韩av| 老子影院午夜伦手机电影| 国产无套乱子伦精彩是白视频| 91精品国产乱码在线观看| 好男人在线社区www在线视频一| 久久久久久九九精品久小说| 最近中文字幕在线mv视频在线| 亚洲欧美日韩成人一区在线| 疯狂的欧美乱大交| 哆啪啪免费视频| 青青青国产精品一区二区| 国产欧美精品区一区二区三区| 8090在线观看免费观看| 天堂资源在线中文| 一本一道久久综合狠狠老| 无码人妻熟妇AV又粗又大| 久久精品国产一区二区三| 欧美videos娇小| 亚洲日本香蕉视频观看视频| 熟妇女人妻丰满少妇中文字幕| 内射一区二区精品视频在线观看| 色综合天天综合网国产成人| 国产孕妇做受视频在线观看| 亚洲人xxx日本人18|