《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 聯合隨機性策略的深度強化學習探索方法
聯合隨機性策略的深度強化學習探索方法
信息技術與網絡安全
楊尚彤,王子磊
(中國科學技術大學 網絡空間安全學院,安徽 合肥230027)
摘要: 目前深度強化學習算法已經可以解決許多復雜的任務,然而如何平衡探索和利用的關系仍然是強化學習領域的一個基本的難題,為此提出一種聯合隨機性策略的深度強化學習探索方法。該方法利用隨機性策略具有探索能力的特點,用隨機性策略生成的經驗樣本訓練確定性策略,鼓勵確定性策略在保持自身優(yōu)勢的前提下學會探索。通過結合確定性策略算法DDPG和提出的探索方法,得到基于隨機性策略指導的確定性策略梯度算法(SGDPG)。在多個復雜環(huán)境下的實驗表明,面對探索問題,SGDPG的探索效率和樣本利用率要優(yōu)于DDPG算法。
中圖分類號: TP18
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.06.008
引用格式: 楊尚彤,王子磊. 聯合隨機性策略的深度強化學習探索方法[J].信息技術與網絡安全,2021,40(6):43-49.
Efficient exploration with stochastic policy for deep reinforcement learning
Yang Shangtong,Wang Zilei
(School of Cyberspace Security,University of Science and Technology of China,Hefei 230027,China)
Abstract: At present, deep reinforcement learning algorithms have been shown to solve many complex tasks, but how to balance the relationship between exploration and exploitation is still a basic problem. Thus, this paper proposes an efficient exploration strategy combined with stochastic policy for deep reinforcement learning. The main contribution is to use the experience generated by stochastic policies to train deterministic policies, which encourages deterministic strategies to learn to explore while maintaining their own advantages. This takes advantage of the exploration ability of stochastic policies. By combining DDPG(Deep Deterministic Policy Gradient) and the proposed exploration method, the algorithm called stochastic guidance for deterministic policy gradient(SGDPG) is obtained. Finally, the results of the experiment in several complex environments show that SGDPG has higher exploration and sample efficiency than DDPG when faced with deep exploration problems.
Key words : reinforcement learning;deep reinforcement learning;exploration-exploitation dilemma

 0 引言

目前,強化學習(reinforcement learning)作為機器學習領域的一個研究熱點,已經在序列決策問題中取得了巨大的進步,廣泛應用于游戲博弈[1]、機器人控制[2]、工業(yè)應用[3]等領域。近年來,許多強化學習方法利用神經網絡來提高其性能,于是有了一個新的研究領域,被稱為深度強化學習(Deep Reinfor-

cement Learning,DRL)[4]。但是強化學習仍然面臨一個主要的問題:探索利用困境(exploration-exploitation dilemma)。在智能體學習過程中,探索(exploration)意味著智能體嘗試之前沒有做過的動作,有可能獲得更高的利益,而利用(exploitation)是指智能體根據之前的經驗選擇當前最優(yōu)的動作。目前,深度強化學習方法的研究主要集中在結合深度學習提高強化學習算法的泛化能力,如何有效地探索狀態(tài)空間仍然是一個關鍵的挑戰(zhàn)。




本文詳細內容請下載:http://www.xxav2194.com/resource/share/2000003599




作者信息:

楊尚彤,王子磊

(中國科學技術大學 網絡空間安全學院,安徽 合肥230027)


此內容為AET網站原創(chuàng),未經授權禁止轉載。
欧美激情办公室aⅴ_国产欧美综合一区二区三区_欧美午夜精品久久久久免费视_福利视频欧美一区二区三区

          国产精品久久久久秋霞鲁丝| 欧美日韩国产一级片| 精品91久久久久| 欧美日韩免费高清| 欧美激情第一页xxx| 女女同性女同一区二区三区91| 欧美在线高清| 欧美一区二区三区在线观看| 亚洲欧美在线网| 亚洲一区二区三区欧美| 一区二区三区久久精品| 一区二区三区精品久久久| 一区二区三区高清在线| 亚洲视频综合| 亚洲曰本av电影| 午夜精品久久久久久久久久久久久 | 蜜臀久久久99精品久久久久久 | 亚洲欧洲偷拍精品| 亚洲国产视频直播| 亚洲精品视频一区| 亚洲美女黄色| 亚洲视频导航| 欧美一区二区三区播放老司机| 欧美有码在线观看视频| 久久久久久噜噜噜久久久精品| 久久久久久亚洲精品中文字幕| 久久久久久久网站| 欧美成人第一页| 欧美日韩美女在线观看| 国产精品久久午夜| 国产一区二区三区久久| 伊人狠狠色丁香综合尤物| 尤物精品在线| 日韩视频一区二区在线观看 | 麻豆精品精品国产自在97香蕉| 美女主播精品视频一二三四| 欧美成人免费全部| 欧美日韩中文在线| 国产精品一区二区三区免费观看 | 国产日韩欧美成人| 影音先锋亚洲精品| 亚洲精品欧美日韩专区| 一区二区三区国产精华| 欧美亚洲免费在线| 蜜臀久久99精品久久久久久9| 欧美国产综合视频| 国产精品国色综合久久| 国精品一区二区三区| 亚洲人在线视频| 欧美亚洲系列| 欧美成人午夜剧场免费观看| 国产精品theporn88| 黑人一区二区三区四区五区| 亚洲激情第一页| 亚洲一区免费网站| 麻豆精品国产91久久久久久| 欧美午夜不卡| 黄色资源网久久资源365| 亚洲精品自在久久| 久久av在线看| 欧美日韩国产三区| 国产综合精品| 日韩系列欧美系列| 欧美综合国产| 欧美日韩国产综合新一区| 国产美女精品在线| 亚洲精品日韩欧美| 欧美亚洲视频一区二区| 欧美激情精品| 国产一区二区三区高清播放| 一区二区国产日产| 久久亚洲欧美国产精品乐播| 国产精品成人免费精品自在线观看| 国产中文一区二区| 亚洲午夜久久久久久久久电影网| 看欧美日韩国产| 国产精品综合不卡av| 日韩视频免费在线观看| 久久九九精品99国产精品| 欧美日韩性生活视频| 在线观看视频欧美| 午夜欧美不卡精品aaaaa| 欧美精品一区二区视频| 韩国一区电影| 亚洲欧美日韩在线| 欧美日韩午夜剧场| 亚洲国产mv| 久久久国产亚洲精品| 国产精品高清在线| 日韩一级在线| 欧美激情免费在线| 亚洲福利视频网站| 久久久精品国产一区二区三区| 国产精品视频第一区| 日韩视频国产视频| 欧美不卡福利| 亚洲国产91精品在线观看| 久久精品国产清高在天天线| 国产精品男gay被猛男狂揉视频| 99re热精品| 欧美久久综合| 亚洲欧洲综合另类| 免费成人高清视频| 一色屋精品视频在线观看网站| 久久gogo国模啪啪人体图| 国产精品系列在线播放| 亚洲一区久久久| 欧美三区在线观看| 一本一道久久综合狠狠老精东影业 | 在线欧美小视频| 久久久精彩视频| 国模精品娜娜一二三区| 欧美亚洲视频在线观看| 国产模特精品视频久久久久 | 欧美夫妇交换俱乐部在线观看| 极品尤物av久久免费看| 久久久av网站| 国内一区二区三区在线视频| 欧美专区中文字幕| 国产主播一区二区三区| 性欧美video另类hd性玩具| 国产精品美女主播| 一本一道久久综合狠狠老精东影业| 欧美高清视频免费观看| 亚洲高清影视| 欧美黄色影院| 日韩亚洲不卡在线| 欧美日韩亚洲精品内裤| 一区二区三区免费观看| 欧美性大战久久久久久久蜜臀| 一区二区三区毛片| 国产精品成人免费| 亚洲一二三四久久| 国产精品午夜在线观看| 欧美在线视频免费观看| 激情欧美日韩一区| 女同一区二区| 9l国产精品久久久久麻豆| 欧美视频中文字幕在线| 亚洲欧美国产高清va在线播| 国产深夜精品| 久久久水蜜桃av免费网站| 亚洲国产精品成人综合色在线婷婷| 欧美 日韩 国产 一区| 日韩视频免费| 国产精品区二区三区日本 | 亚洲国产小视频在线观看| 欧美国产精品| 亚洲一区二区精品在线| 国产欧美精品国产国产专区| 久久久久网址| 亚洲人成7777| 国产精品国产三级国产a| 欧美一区二区视频在线| 亚洲高清资源综合久久精品| 欧美日韩伦理在线| 久久av一区二区三区亚洲| 亚洲激情电影在线| 国产精品成人一区二区艾草| 久久国产精品亚洲77777| 亚洲欧洲日本一区二区三区| 国产精品乱码| 久久先锋资源| 中国女人久久久| 一区二区三区亚洲| 欧美色综合天天久久综合精品| 欧美资源在线观看| a4yy欧美一区二区三区| 国产性做久久久久久| 欧美激情一区二区| 欧美一区二区三区四区视频 | 亚洲一二三四久久| 一区二区三区在线免费视频| 欧美三级视频在线观看| 久久人人97超碰国产公开结果| 99riav1国产精品视频| 国产性猛交xxxx免费看久久| 欧美精品久久久久久久| 欧美在线免费播放| 99精品热视频只有精品10| 国产一区深夜福利| 欧美日韩在线视频观看| 久久亚洲国产精品一区二区| 亚洲午夜一区| 亚洲黄一区二区| 国产老女人精品毛片久久| 欧美高清不卡在线| 久久精品国产一区二区三| 日韩一本二本av| 激情五月婷婷综合| 国产精品入口日韩视频大尺度| 免费视频久久| 久久国产日韩| 亚洲午夜一区二区| 亚洲激情网站| 国产亚洲日本欧美韩国| 欧美日韩亚洲系列| 免费在线亚洲欧美| 久久精品视频免费播放| 亚洲免费在线看|