王雪松 王荣荣 程玉虎

王雪松, 王荣荣, 程玉虎. 基于表征学习的离线强化学习方法研究综述. 自动化学报, 2024, 50(6): 1104−1128 doi: 10.16383/j.aas.c230546
Wang Xue-Song, Wang Rong-Rong, Cheng Yu-Hu. A review of offline reinforcement learning based on representation learning. Acta Automatica Sinica, 2024, 50(6): 1104−1128 doi: 10.16383/j.aas.c230546
基金项目: 国家自然科学基金(62373364, 62176259), 江苏省重点研发计划项目(BE2022095)资助

    王雪松:中国矿业大学信息与控制工程学院教授. 2002年获得中国矿业大学博士学位. 主要研究方向为机器学习与模式识别. E-mail: wangxuesongcumt@163.com

    王荣荣:中国矿业大学信息与控制工程学院博士研究生. 2021年获得济南大学硕士学位. 主要研究方向为深度强化学习. E-mail: wangrongrong1996@126.com

    程玉虎:中国矿业大学信息与控制工程学院教授. 2005年获得中国科学院自动化研究所博士学位. 主要研究方向为机器学习与智能系统. 本文通信作者. E-mail: chengyuhu@163.com

A Review of Offline Reinforcement Learning Based on Representation Learning

Funds: Supported by National Natural Science Foundation of China (62373364, 62176259) and Key Research and Development Program of Jiangsu Province (BE2022095)
    WANG Xue-Song Professor at the School of Information and Control Engineering, China University of Mining and Technology. She received her Ph.D. degree from China University of Mining and Technology in 2002. Her research interest covers machine learning and pattern recognition

    WANG Rong-Rong Ph.D. candidate at the School of Information and Control Engineering, China University of Mining and Technology. She received her master degree from University of Jinan in 2021. Her main research interest is deep reinforcement learning

    CHENG Yu-Hu Professor at the School of Information and Control Engineering, China University of Mining and Technology. He received his Ph.D. degree from the Institute of Automation, Chinese Academy of Sciences in 2005. His research interest covers machine learning and intelligent system. Corresponding author of this paper

  • 摘要: 强化学习(Reinforcement learning, RL)通过智能体与环境在线交互来学习最优策略, 近年来已成为解决复杂环境下感知决策问题的重要手段. 然而, 在线收集数据的方式可能会引发安全、时间或成本等问题, 极大限制了强化学习在实际中的应用. 与此同时, 原始数据的维度高且结构复杂, 解决复杂高维数据输入问题也是强化学习面临的一大挑战. 幸运的是, 基于表征学习的离线强化学习能够仅从历史经验数据中学习策略, 而无需与环境产生交互. 它利用表征学习技术将离线数据集中的特征表示为低维向量, 然后利用这些向量来训练离线强化学习模型. 这种数据驱动的方式为实现通用人工智能提供了新契机. 为此, 对近期基于表征学习的离线强化学习方法进行全面综述. 首先给出离线强化学习的形式化描述, 然后从方法、基准数据集、离线策略评估与超参数选择3个层面对现有技术进行归纳整理, 进一步介绍离线强化学习在工业、推荐系统、智能驾驶等领域中的研究动态. 最后, 对全文进行总结, 并探讨基于表征学习的离线强化学习未来所面临的关键挑战与发展趋势, 以期为后续的研究提供有益参考.
  • 图  1  基于表征学习的离线强化学习总体框架

    Fig.  1  The overall framework of offline reinforcement learning based on representation learning

    图  2  基于动作表征的离线强化学习框架

    Fig.  2  The framework of offline reinforcement learning based on action representation

    图  3  基于状态表征的离线强化学习框架

    Fig.  3  The framework of offline reinforcement learning based on state representation

    图  4  基于状态−动作对表征的离线强化学习框架

    Fig.  4  The framework of offline reinforcement learning based on state-action pairs representation

    图  5  基于轨迹表征的离线强化学习框架

    Fig.  5  The framework of offline reinforcement learning based on trajectory representation

    图  6  基于任务(环境)表征的离线强化学习框架

    Fig.  6  The framework of offline reinforcement learning based on task (environment) representation

    表  1  基于表征学习的离线强化学习方法对比

    Table  1  Comparison of offline reinforcement learning based on representation learning

    表征对象 参考文献 表征网络架构 环境建模方式 应用场景 特点 缺点
    动作表征 [1521] VAE 无模型 机器人控制、导航 状态条件下生成动作, 将目标
    [2223] 流模型
    [2425] 扩散模型
    状态表征 [2627] VAE 无模型 基于视觉的机器人控制 压缩高维观测状态, 减少
    冗余信息, 提高泛化能力
    [28] VAE 基于模型
    [29] GAN 基于模型
    [30] 编码器架构 基于模型
    [3132] 编码器架构 无模型
    [33] 自编码器 基于模型 基于视觉的机器人控制、
    [34] VAE 基于模型
    [3536] 编码器架构 无模型
    [3738] 编码器架构 基于模型
    轨迹表征 [3944] Transformer 序列模型 机器人控制、导航、游戏 将强化学习视为条件序列建模
    问题, 用于预测未来轨迹序列
    [4547] 扩散模型
    任务表征 [4849] 编码器架构 无模型 机器人控制、导航 借助元学习思想, 使智能体
    环境表征 [5051] 编码器架构 基于模型
    下载: 导出CSV

    表  2  离线强化学习基准数据集对比

    Table  2  Comparison of benchmarking datasets for offline reinforcement learning

    名称 领域 应用领域 数据集特性
    RL Unplugged DeepMind控制套件 机器人连续控制 连续域, 探索难度由易到难
    DeepMind运动套件 模拟啮齿动物的运动 连续域, 探索难度大
    Atari 2600 视频游戏 离散域, 探索难度适中
    真实世界强化学习套件 机器人连续控制 连续域, 探索难度由易到难
    D4RL Maze2D 导航 非马尔科夫策略, 不定向与多任务数据
    MiniGrid-FourRooms 导航, Maze2D的离散模拟 非马尔科夫策略, 不定向与多任务数据
    AntMaze 导航 非马尔科夫策略, 稀疏奖励, 不定向与多任务数据
    Gym-MuJoCo 机器人连续控制 次优数据, 狭窄数据分布
    Adroit 机器人操作 非表示性策略, 狭窄数据分布, 稀疏奖励, 现实领域
    Flow 交通流量控制管理 非表示性策略, 现实领域
    FrankaKitchen 厨房机器人操作 不定向与多任务数据, 现实领域
    CARLA 自动驾驶车道跟踪与导航 部分可观测性, 非表示性策略, 不定向与多任务数据, 现实领域
    NeoRL Gym-MuJoCo 机器人连续控制 保守且数据量有限
    工业基准 工业控制任务 高维连续状态和动作空间, 高随机性
    FinRL 股票交易市场 高维连续状态和动作空间, 高随机性
    CityLearn 不同类型建筑的储能控制 高维连续状态和动作空间, 高随机性
    SalesPromotion 商品促销 由人工操作员与真实用户提供的数据
    下载: 导出CSV

    表  3  基于表征学习的离线强化学习应用综述

    Table  3  Summarization of the applications for offline reinforcement learning based on representation learning

    应用领域 文献 表征对象 表征网络架构 环境建模方式 所解决的实际问题 策略学习方法
    工业 [68] 任务表征 编码器架构 无模型 工业连接器插入 从离线数据中元学习自适应策略
    [104] 任务表征 编码器架构 无模型 工业连接器插入 利用域对抗神经网络的域不变性和变分信息瓶颈的
    [67] 轨迹表征 Transformer 序列模型 工业芯片布局 采用因果自注意力掩码并通过自回归
    推荐系统 [57] 动作表征 VAE 基于模型 快速适应冷启动用户 利用逆强化学习从少量交互中恢复出
    [60] 状态表征 编码器架构 基于模型 数据稀疏性 利用群体偏好注入的因果用户模型训练策略
    [61] 状态表征 编码器架构 无模型 离线交互推荐 利用保守的Q函数来估计策略
    智能驾驶 [58] 动作表征 VAE 无模型 交叉口生态驾驶控制 利用VAE生成动作
    [69] 环境表征 VAE 基于模型 长视域任务 利用VAE生成动作
    医疗 [63] 状态−动作对表征 编码器架构 基于模型 个性化诊断 使用在线模型预测控制方法选择策略
    能源管理 [59] 动作表征 VAE 无模型 油电混动汽车能源利用效率 利用VAE生成动作
    量化交易 [70] 环境表征 编码器架构 无模型 最优交易执行的过拟合问题 利用时序差分误差或策略梯度法来学习策略
    下载: 导出CSV
