熊珞琳 毛帅 唐漾 孟科 董朝阳 钱锋

doi: 10.16383/j.aas.c210166
基金项目: 国家自然科学基金基础科学中心项目(61988101), 国家杰出青年科学基金(61725301), 中央高校基本科研业务费专项资金(222202117006), 上海市优秀学术带头人计划(20XD1401300)资助

    熊珞琳:华东理工大学信息科学与工程学院博士研究生. 主要研究方向为强化学习, 智能电网. E-mail: Y11200038@mail.ecust.edu.cn

    毛帅:华东理工大学信息科学与工程学院博士研究生. 主要研究方向为多智能体系统, 分布式优化. E-mail: mshecust@163.com

    唐漾:博士, 华东理工大学教授. 主要研究方向为分布式估计/控制/优化, 信息物理融合系统, 混杂动力系统, 计算机视觉和强化学习. E-mail: yangtang@ecust.edu.cn

    孟科:博士, 澳大利亚新南威尔士大学电气工程与电信学院高级讲师. 主要研究方向为电力系统建模, 稳定性分析, 可再生能源系统和电网集成. E-mail: kemeng@ieee.org

    董朝阳:博士, 澳大利亚新南威尔士大学电气工程与电信学院能源系统教授. 主要研究方向为智能电网, 电力系统规划, 电力系统安全, 负荷建模, 电力市场和计算智能及其在电力工程中的应用. E-mail: zydong@ieee.org

    钱锋:博士, 中国工程院院士, 华东理工大学副校长. 主要研究方向为化工过程资源与能源高效利用的流程制造智能控制, 系统集成优化理论方法与关键技术研究. 本文通信作者. E-mail: fqian@ecust.edu.cn

Reinforcement Learning Based Integrated Energy System Management: A Survey

Funds: Supported by Project of Basic Science Center of National Natural Science Foundation of China (61988101), National Science Fund for Distinguished Young Scholars (61725301), the Fundamental Research Funds for the Central Universities (222202117006), and Program of Shanghai Academic Research Leader (20XD1401300)
More Information
    Author Bio:

    XIONG Luo-Lin Ph. D. candidate at School of Information Science and Engineering, East China University of Science and Technology. Her research interest covers reinforcement learning, and smart grid

    MAO Shuai Ph. D. candidate at School of Information Science and Engineering, East China University of Science and Technology. His research interest covers multi-agent systems, and distributed optimization

    TANG Yang Ph. D., professor at East China University of Science and Technology. His research interest covers distributed estimation/control/optimization, cyber-physical systems, hybrid dynamical systems, computer vision, and reinforcement learning

    MENG Ke Ph. D., senior lecturer at the School of Electrical Engineering and Telecommunications, University of New South Wales, Australia. His research interest covers electric power system modelling, stability analysis, renewable energy systems, and grid integration

    DONG Zhao-Yang Ph. D., professor of energy systems at the School of Electrical Engineering and Telecommunications, University of New South Wales, Australia. His research interest covers smart grid, electric power system planning, electric power system security, load modeling, electricity market, and computational intelligence and its application in power engineering

    QIAN Feng Ph. D., Academician of Chinese Academy of Engineering, the Vice President of East China University of Science and Technology. His research interest covers intelligent control of process manufacturing for efficient utilization of chemical process resources and energy, and theory, method and key technology of system integrated optimization. Corresponding author of this paper

  • 摘要: 为了满足日益增长的能源需求并减少对环境的破坏, 节能成为全球经济和社会发展的一项长远战略方针, 加强能源管理能够提高能源利用效率、促进节能减排. 然而, 可再生能源和柔性负载的接入使得综合能源系统(Integrated energy system, IES)发展成为具有高度不确定性的复杂动态系统, 给现代化能源管理带来巨大的挑战. 强化学习(Reinforcement learning, RL)作为一种典型的交互试错型学习方法, 适用于求解具有不确定性的复杂动态系统优化问题, 因此在综合能源系统管理问题中得到广泛关注. 本文从模型和算法的层面系统地回顾了利用强化学习求解综合能源系统管理问题的现有研究成果, 并从多时间尺度特性、可解释性、迁移性和信息安全性4个方面提出展望.
  • 图  1  结构及主要内容

    Fig.  1  The structure and main contents

    图  2  微电网管理方案

    Fig.  2  Microgrid management approach

    表  1  强化学习算法分类

    Table  1  The classification of reinforcement learning algorithm

    强化学习算法类型 模型 选择动作的依据 学习方式
    有模型 无模型 基于价值 基于策略 在线策略 离线策略
    Q Learning[27]
    DQN[14] (Dueling DQN[35]/Double DQN)[34]
    AC[32] (A2C/A3C[36]/TRPO[37]/PPO[38]/DDPG[39-40])
    下载: 导出CSV

    表  2  基于强化学习的微电网管理

    Table  2  Microgrid management based on reinforcement learning

    文献 时间尺度 管理方案 求解算法 算法性能
    收敛稳定 计算速度 隐私保护 适应性
    [22] 日内滚动 公用事业公司定价 自适应强化学习
    [41] 实时调整 储电装置调节 深度确定性策略梯度
    [43] 日前调度 消费者价格感知 有限时域深度确定性策略梯度
    日内滚动 有限时域递归确定性策略梯度
    [47] 日内滚动 公用事业公司定价 博弈论 + 强化学习
    [48] 日前调度 公用事业公司定价 蒙特卡洛法
    [50] 实时调整 储电装置调节 深度双 Q 网络
    [56] 日前调度 直接负载控制 深度竞争 Q 网络
    [58] 日内滚动 公用事业公司定价 Q 学习
    下载: 导出CSV

    表  3  电动汽车充放电管理算法

    Table  3  The algorithm of charge and discharge management of electric vehicle

    文献 不确定性处理 高维变量处理 求解算法 算法性能
    计算速度 适应性 备注
    [31] 数据驱动 深度网络 充电控制深度确定性策略梯度
    [87] 机理模型驱动 参数自适应差分进化 计算时间仅相对于传统差分进化法可以接受
    [88] 模型已知 分层优化 基于场景树的动态规划 ×
    [95] 数据驱动 深度网络 深度 Q 网络
    [97] 模型已知 分层优化 双层近端策略优化 仅总体性能优于其他策略、能较好地跟踪风能发电
    [99] 机理模型驱动 分层优化 基于分布式模拟的策略改进 分布式方法具有可扩展性
    [100] 数据驱动 二维表格 拟合 Q 迭代 性能受给定训练集时间跨度的影响
    [101] 数据驱动 安全深度强化学习
    [103] 数据驱动 深度网络 深度 Q 网络
    [105] 数据驱动 深度网络 深度确定性策略梯度 × 闭环控制框架严格保证电压安全性
    下载: 导出CSV

    表  4  综合能源系统管理的常规算法

    Table  4  Conventional algorithm for integrated energy system management

    文献 规模级别 时间尺度 算法 附加考虑
    [123] 社区 实时调整 混合整数线性规划 考虑光伏生产者的随机特征和风险条件值
    [125] 社区 实时调整 合作博弈 考虑各个能源枢纽自主调度和信息保密性
    [126] 日前计划 交替方向乘子法 提升算法收敛性、实现信息保护
    [127] 日内滚动、实时调整 博弈论 以较低的社会福利为代价显著缩短了运行时间
    [128] 日内滚动 混合整数非线性规划 减轻计算负担
    [129] 城市 日内滚动 混合整数二阶锥规划
    [130] 城市 多时间尺度 基于多目标粒子群优化的双层元启发式算法 KPI 的应用与国家范围内的战略目标密切相关
    [131] 社区 日内滚动 计算机化算法 将复杂的 EH 模型分为几个简单的 EH 模型
    下载: 导出CSV

    表  5  基于强化学习的综合能源系统管理

    Table  5  Integrated energy system management based on reinforcement learning

    文献 社会性目标 求解算法 算法性能
    计算速度 适应性 备注
    [118] 蒙特卡洛法 收敛速度快
    [119] 环境友好 Q 学习
    [133] 优先深度确定性策略梯度
    [134] 分布式近端策略优化 保证收敛性
    [135] 负荷平滑 深度确定性策略梯度
    [136] 人工神经网络 + 强化学习 同时优化能源枢纽系统设计和运行策略
    [137] 用户满意 置信域策略梯度算法 + 深度确定性策略梯度 DDPG 得到的策略更优、两者都无法一步获得
    [138] 多智能体议价学习 + 强化学习 较强的全局搜索能力, 能处理大型复杂的能源
    [139] 用户满意 深度双神经拟合 Q 迭代 提高鲁棒性, 无模型算法性能不及基于模型的算法
    [140] 环境友好 演员-评论家算法 有较好的稳定性
    下载: 导出CSV
