陈晋音 章燕 王雪柯 蔡鸿斌 王珏 纪守领

陈晋音, 章燕, 王雪柯, 蔡鸿斌, 王珏, 纪守领. 深度强化学习的攻防与安全性分析综述. 自动化学报, 2022, 48(1): 21−39 doi: 10.16383/j.aas.c200166
基金项目: 浙江省自然科学基金(LY19F020025), 宁波市“科技创新2025”重大专项(2018B10063), 科技创新2030—“新一代人工智能”重大项目(2018AAA0100800)资助

    陈晋音:浙江工业大学网络空间安全研究院副教授. 2009年获得浙江工业大学博士学位. 主要研究方向为人工智能安全, 网络数据挖掘, 智能计算, 计算机视觉. 本文通信作者.E-mail: chenjinyin@zjut.edu.cn

    章燕:浙江工业大学信息工程学院硕士研究生. 主要研究方向为人工智能安全, 计算机视觉. E-mail: 2111903240@zjut.edu.cn

    王雪柯:浙江工业大学信息工程学院硕士研究生. 主要研究方向为人工智能安全, 计算机视觉. E-mail: 17660478061@163.com

    蔡鸿斌:华东师范大学软件工程学院硕士研究生. 主要研究方向为深度学习. E-mail: hongbincai5330@163.com

    王珏:浙江工业大学信息工程学院硕士研究生. 主要研究方向为人工智能安全, 计算机视觉. E-mail: 211190321@zjut.edu.cn

    纪守领:浙江大学“百人计划”研究员. 2013年获得佐治亚州立大学计算机科学博士学位, 2015年获得佐治亚理工学院电子与计算机工程博士学位. 主要研究方向为数据驱动的安全性和隐私性, 人工智能安全性, 大数据分析. E-mail: sji@zju.edu.cn

A Survey of Attack, Defense and Related Security Analysis for Deep Reinforcement Learning

Funds: Supported by the Zhejiang Provincial Natural Science Foundation of China (LY19F020025), the Major Special Funding for “Science and Technology Innovation 2025” in Ningbo (2018B10063), and the National Key Research and Development Program of China (2018AAA0100800)
More Information
    Author Bio:

    CHEN Jin-Yin Associate professor at the Institute of Cyberspace Security, Zhejiang University of Technology. She received her Ph.D. from Zhejiang University of Technology in 2009. Her research interest covers teaching and scientific research in artificial intelligence security, network data mining, intelligent computing, and computer vision. Corresponding author of thies paper

    ZHANG Yan Master student at the School of Information Engineering, Zhejiang University of Technology. Her research interest covers artificial intelligence security and computer vision

    WANG Xue-Ke Master student at the School of Information Engineering, Zhejiang University of Technology. Her research interest covers artificial intelligence security and computer vision

    CAI Hong-Bin Master student at the School of Software Engineering, East China Normal University. His main research interest is deep learning

    WANG Jue Master student at the School of Information Engineering, Zhejiang University of Technology. His research interest covers artificial intelligence security and computer vision

    JI Shou-Ling Researcher at the “Hundred Talents Program” of Zhejiang University. He received his Ph.D. degree in electrical and computer engineering from Georgia Institute of Technology, and in computer science from Georgia State University in 2013 and 2015, respectively. His research interest covers data-driven security and privacy, artificial intelligence security, and big data analysis

  • 摘要: 深度强化学习是人工智能领域新兴技术之一, 它将深度学习强大的特征提取能力与强化学习的决策能力相结合, 实现从感知输入到决策输出的端到端框架, 具有较强的学习能力且应用广泛. 然而, 已有研究表明深度强化学习存在安全漏洞, 容易受到对抗样本攻击. 为提高深度强化学习的鲁棒性、实现系统的安全应用, 本文针对已有的研究工作, 较全面地综述了深度强化学习方法、对抗攻击、防御方法与安全性分析, 并总结深度强化学习安全领域存在的开放问题以及未来发展的趋势, 旨在为从事相关安全研究与工程应用提供基础.
  • 图  1  对DRL系统的不同类型攻击

    Fig.  1  Different types of attacks on DRL system

    图  2  奖励可视化

    Fig.  2  Reward visualization

    图  3  对抗智能体攻击效果

    Fig.  3  Adversarial agent attack

    图  4  基于预测模型的对抗检测

    Fig.  4  Adversarial detection based on prediction model

    图  5  决策树等价模型验证方法流程

    Fig.  5  Process of decision tree equivalent model verification

    表  1  经典深度强化学习算法对比

    Table  1  Comparison of classic deep reinforcement learning algorithm

    深度Q网络(DQN)[1-2]使用经验回放机制打破样本相关性; 使用目标网络稳定训练过程第一个能进行端到端学习的
    训练过程不稳定; 无法处理
    双重深度Q网络(DDQN)[3]用目标网络来评估价值, 用评估网络选择动作缓解了DQN对价值的过估计问题训练过程不稳定; 无法
    (Prioritized DQN)[4]
    对经验池中的训练样本设立优先级进行采样提高对稀有样本的使用效率训练过程不稳定; 无法
    (Dueling DQN)[5]
    对偶网络结构, 使用状态价值函数, 与相对动作价值函数来评估Q值存在多个价值相仿的动作时
    足; 无法处理连续动作
    引入注意力机制减轻网络训练的运算代价训练过程不稳定; 无法
    (Noisy DQN)[29]
    在网络权重中加入参数噪声提高了探索效率; 减少了参数设置; 训练过程不稳定; 无法
    RNN隐藏状态存在经验池中; 采样部分序列产生RNN初始状态 减缓了RNN状态滞后性状态滞后和表征漂移
    经验回放机制; 专家演示回放缓冲区; 分布式优先采样 解决了在初始条件高度可变
    REINFORCE[35]使用随机梯度上升法; 累计奖励作为动作价值函数的无偏估计策略梯度是无偏的存在高方差;收敛速度慢
    自然策略梯度(Natural PG)[36]自然梯度朝贪婪策略方向更新收敛速度更快; 策略更新变化小自然梯度未达到有效最大值
    行动者−评论者(AC)[37]Actor用来更新策略; Critic用来评估策略解决高方差的问题AC算法中策略梯度存
    确定性策略梯度(DDPG)[38]确定性策略理论 解决了连续动作问题无法处理离散动作问题
    使用行动者评论者网络结构; 异步更新公共网络参数用多线程提高学习效率;
    内存消耗大; 更新策略
    信任域策略优化(TRPO)[7]用KL散度限制策略更新保证了策略朝着优化的方向更新实现复杂; 计算开销较大
    信任域策略优化; Kronecker因子
    算法; 行动者评论者结构
    采样效率高; 显著减少计算量计算依然较复杂
    表  2  深度强化学习的攻击方法

    Table  2  Attack methods toward deep reinforcement learning

    策略诱导攻击[41]DQN[1-2]训练敌手策略; 对抗样本的转移性训练阶段黑盒
    表  3  深度强化学习的攻击和攻击成功率

    Table  3  Attack success rate toward deep reinforcement learning

    DQN[1]CopyCAT算法[47]测试阶段使用预先计算的掩码对智能体的观测做出实时的攻击OpenAI Gym[77]60%~100%
    FGSM攻击[19]训练阶段在观测上加上FGSM攻击OpenAI Gym[77]90% ~ 100%
    策略诱导攻击[41]训练阶段训练敌手策略; 对抗样本的转移性Grid-World map[40]70%~95%
    战略时间攻击[42]测试阶段在一些关键时间步进行攻击OpenAI Gym[77]40步以内达到70%
    PPO[37]通过策略进行攻击[53]测试阶段采用对抗智能体防止目标智能体完成任务OpenAI Gym[77]玩家智能体成功率下降至62%和45%
    表  4  深度强化学习的防御方法

    Table  4  Defense methods of deep reinforcement learning

    对抗训练(见3.1)使用FGSM与随机噪声重训练[44, 55]对正常训练后的策略使用对抗样本
    方差层[62]用权重遵循零均值分布, 并且仅
    表  6  深度强化学习的攻击指标

    Table  6  Attack indicators of deep reinforcement learning

    分类 攻击方法 攻击模型 平台 奖励 损失 成功率 精度
    观测攻击 FGSM[19] DQN[1-2]、TRPO[7]、A3C[6] OpenAI Gym[75]
    策略诱导攻击[41] DQN[1-2] Grid-world[40]
    战略时间攻击[42] DQN[1-2]、A3C[6] OpenAI Gym[75]
    迷惑攻击[42] DQN[1-2]、A3C[6] OpenAI Gym[75]
    基于值函数的对抗攻击[44] A3C[6] OpenAI Gym[75]
    嗅探攻击[45] DQN[1-2]、PPO[39] OpenAI Gym[75]
    基于模仿学习的攻击[46] DQN[1-2]、A2C[6]、PPO[39] OpenAI Gym[75]
    CopyCAT算法[47] DQN[1-2] OpenAI Gym[75]
    奖励攻击 基于对抗变换网络的对抗攻击[21] DQN[1-2] OpenAI Gym[75]
    木马攻击[48] A2C[6] OpenAI Gym[75]
    翻转奖励符号攻击[49] DDQN[3] SDN environment[49]
    环境攻击 路径脆弱点攻击[50] DQN[1-2] OpenAI Gym[75]
    通用优势对抗样本生成方法[20] A3C[6] Grid-world[40]
    对环境模型的攻击[51] DQN[1-2]、DDPG[38] OpenAI Gym[75]
    动作攻击 动作空间扰动攻击[52] PPO[37]、DDQN[3] OpenAI Gym[75]
    策略攻击 通过策略进行攻击[53] PPO[39] OpenAI Gym[75]
    表  7  深度强化学习的防御指标

    Table  7  Defense indicators of deep reinforcement learning

    分类 防御方法 实验平台 平均回报 成功率 每回合步数
    对抗训练 使用FGSM与随机噪声重训练[44-45] OpenAI Gym[75]
    基于梯度带的对抗训练[50] Grid-world[40]
    非连续扰动下的对抗训练[56] OpenAI Gym[75]
    基于敌对指导探索的对抗训练[57] OpenAI Gym[75]
    鲁棒学习 基于代理奖励的鲁棒训练[58] OpenAI Gym[75]
    鲁棒对抗强化学习[59] OpenAI Gym[75]
    二人均衡博弈[60] Grid-world[40]
    迭代动态博弈框架[61] KUKA youbot[60]
    对抗A3C[24] OpenAI Gym[75]
    噪声网络[62] OpenAI Gym[75]
    方差层[63] OpenAI Gym[75]
    对抗检测 基于元学习的对抗检测[64] OpenAI Gym[75]
    基于预测模型的对抗检测[25] OpenAI Gym[75]
    水印授权[54] OpenAI Gym[75]
    受威胁的马尔科夫决策过程[69] Grid-world[40]
    在线认证防御[70] OpenAI Gym[75]
    表  5  深度强化学习的安全性评估指标

    Table  5  Security evaluation indicators of deep reinforcement learning

    攻击指标奖励根据模型策略运行多个回合, 计算累积回合奖励或者平均回合奖励用于评估攻击方法对模型整体性能的影响
    防御指标平均回报根据模型策略运行多个回合, 计算平均回合奖励用于评估防御方法对提高模型性能的有效性
    每回合步数根据模型策略运行多个回合, 记录每个回合的存活步数或者平均回合步数用于评估防御方法对提高模型性能的有效性
