2.765

2022影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于状态-动作图测地高斯基的策略迭代强化学习

程玉虎 冯涣婷 王雪松

程玉虎, 冯涣婷, 王雪松. 基于状态-动作图测地高斯基的策略迭代强化学习. 自动化学报, 2011, 37(1): 44-51. doi: 10.3724/SP.J.1004.2011.00044
引用本文: 程玉虎, 冯涣婷, 王雪松. 基于状态-动作图测地高斯基的策略迭代强化学习. 自动化学报, 2011, 37(1): 44-51. doi: 10.3724/SP.J.1004.2011.00044
CHENG Yu-Hu, FENG Huan-Ting, WANG Xue-Song. Policy Iteration Reinforcement Learning Based on Geodesic Gaussian Basis Defined on State-action Graph. ACTA AUTOMATICA SINICA, 2011, 37(1): 44-51. doi: 10.3724/SP.J.1004.2011.00044
Citation: CHENG Yu-Hu, FENG Huan-Ting, WANG Xue-Song. Policy Iteration Reinforcement Learning Based on Geodesic Gaussian Basis Defined on State-action Graph. ACTA AUTOMATICA SINICA, 2011, 37(1): 44-51. doi: 10.3724/SP.J.1004.2011.00044

基于状态-动作图测地高斯基的策略迭代强化学习

doi: 10.3724/SP.J.1004.2011.00044
详细信息
    通讯作者:

    程玉虎

Policy Iteration Reinforcement Learning Based on Geodesic Gaussian Basis Defined on State-action Graph

More Information
    Corresponding author: CHENG Yu-Hu
  • 摘要: 在策略迭代强化学习中, 基函数构造是影响动作值函数逼近精度的一个重要因素. 为了给动作值函数逼近提供合适的基函数, 提出一种基于状态-动作图测地高斯基的策略迭代强化学习方法. 首先, 根据离策略方法建立马尔可夫决策过程的状态-动作图论描述; 然后, 在状态-动作图上定义测地高斯核函数, 利用基于近似线性相关的核 稀疏方法自动选择测地高斯核的中心; 最后, 在策略评估阶段利用基于状态-动作图的测地高斯核逼近动作值函数, 并基于估计的值函数进行策略改进. 10×10格子世界的仿真结果表明, 与基于状态图普通高斯基和测地高斯基的策略迭代强化学习方法相比, 本文所提方法能以较少的基函数、高精度地逼近具有光滑且不连续特 性的动作值函数, 从而有效地获得最优策略.
  • 加载中
计量
  • 文章访问数:  2184
  • HTML全文浏览量:  64
  • PDF下载量:  1003
  • 被引次数: 0
出版历程
  • 收稿日期:  2010-07-05
  • 修回日期:  2010-10-13
  • 刊出日期:  2011-01-20

目录

    /

    返回文章
    返回