赵静 裴子楠 姜斌 陆宁云 赵斐 陈树峰

基金项目: 直升机动力学全国重点实验室 (2024-ZSJ-LB-02-05), 机械结构力学及控制国家重点实验室 (MCMS-E-0123G04), 工业控制技术全国重点实验室 (ICT2023B21), 南京邮电大学校级自然科学基金 (NY223119)资助

    赵静:南京邮电大学自动化学院与人工智能学院副教授. 主要研究方向为空中机器人和无人系统感知与控制. E-mail: zhaojing@njupt.edu.cn

    裴子楠:南京邮电大学自动化学院与人工智能学院硕士研究生. 主要研究方向为无人机轨迹规划和深度强化学习. E-mail: njpzn1@126.com

    姜斌:南京航空航天大学自动化学院教授. 主要研究方向为故障诊断与容错控制及应用. 本文通信作者.E-mail: binjiang@nuaa.edu.cn

    陆宁云:南京航空航天大学自动化学院教授. 主要研究方向为基于数据驱动的故障诊断与预测及其应用.E-mail: luningyun@nuaa.edu.cn

    赵斐:浙江大学控制科学与工程学院副研究员. 主要研究方向为过程系统工程.E-mail: zhaofeizju@zju.edu.cn

    陈树峰:北京计算机技术及应用研究所高级工程师. 主要研究方向为嵌入式操作系统和嵌入式智能计算.E-mail: csfcsf1991@sina.com

Virtual Tube Visual Obstacle Avoidance for UAV Based on Deep Reinforcement Learning

Funds: Supported by National Key Laboratory Foundation of Helicopter Aeromechanics (2024-ZSJ-LB-02-05), State Key Laboratory of Aerospace Structural Mechanics and Control (MCMS-E-0123G04), Open Research Project of the State Key Laboratory of Industrial Control Technology (ICT2023B21), and Natural Science Foundation of Nanjing University of Posts and Telecommunications (NY223119)
    ZHAO Jing Associate professor at the College of Automation & College of Artificial intelligence, Nanjing University of Posts and Telecommunications. Her research interest covers aerial robotics and unmanned system perception and control

    PEI Zi-Nan Master student at the College of Automation & College of Artificial intelligence, Nanjing University of Posts and Telecommunications. His research interest covers UAV path planning and deep reinforcement learning

    JIANG Bin Professor at the College of Automation Engineering, Nanjing University of Aeronautics and Astronautics. His research interest covers fault diagnosis and fault-tolerant control and their applications. Corresponding author of this paper

    LU Ning-Yun Professor at the College of Automation Engineering, Nanjing University of Aeronautics and Astronautics. Her research interest covers data driven fault diagnosis and prognosis and their applications

    ZHAO Fei Associate research fellow at the College of Control Science and Engineering, Zhejiang University. His research interest covers process system engineering

    CHEN Shu-Feng Senior engineer at the Beijing Institute of Computer Technology and Application. His research interest covers embedded operating system and embedded intelligent computing

  • 摘要: 针对虚拟管道下的无人机自主避障问题, 提出一种基于视觉传感器的自主学习架构. 通过引入新颖的奖励函数, 设计了一种端到端的深度强化学习控制策略. 融合卷积神经网络和循环神经网络的优点构建双网络, 降低了网络复杂度,对无人机深度图像进行有效处理. 进一步通过Airsim 模拟器搭建三维实验环境, 采用连续动作空间优化无人机飞行轨迹的平滑性. 仿真结果表明, 与现有的方法对比, 该模型在面对静态和动态障碍时, 训练收敛速度快, 平均奖励高, 任务完成率分别增加9.4%和19.98%, 有效实现无人机的精细化避障和自主安全导航.
  • 图  1  DRL基本原理

    Fig.  1  Basic principle of DRL

    图  2  无人机连续动作空间示意图

    Fig.  2  Schematic diagram of unmanned aerial vehicle continuous action space

    图  3  RCPPO 算法架构图

    Fig.  3  RCPPO algorithm architecture diagram

    图  4  LSTM网络结构图

    Fig.  4  LSTM structure

    图  5  双网络结构图

    Fig.  5  Dual network structure diagram

    图  6  实验环境

    Fig.  6  Experiment environment

    图  7  无障碍环境中的平均奖励值

    Fig.  7  Average reward values in obstacle-free environment

    图  8  CPPO-1无障碍轨迹图

    Fig.  8  Obstacle-free trajectory map of CPPO-1

    图  9  CPPO-2无障碍轨迹图

    Fig.  9  Obstacle-free trajectory map of CPPO-2

    图  10  静态障碍环境中的平均奖励值

    Fig.  10  Average reward values in static obstacle environment

    图  11  CPPO-1静态障碍轨迹图

    Fig.  11  Static obstacle trajectory map of CPPO-1

    图  12  CPPO-2静态障碍轨迹图

    Fig.  12  Static obstacle trajectory map of CPPO-2

    图  13  动态障碍环境中的平均奖励值

    Fig.  13  Average reward values in dynamic obstacle environment

    图  14  CPPO-1动态障碍轨迹图

    Fig.  14  Dynamic obstacle trajectory map of CPPO-1

    图  15  RCPPO动态障碍轨迹图

    Fig.  15  Dynamic obstacle trajectory map of RCPPO

    表  1  CNN网络结构

    Table  1  CNN network structure

    网络层 输入维度 卷积核尺寸 卷积核个数 步长 激活函数 输出维度
    CNN1 84*84*1 8*8 32 4 ReLU 20*20*32
    MaxPooling1 20*20*32 2*2 / 2 / 10*10*32
    CNN2 10*10*32 3*3 64 1 ReLU 8*8*64
    MaxPooling2 8*8*64 2*2 / 2 / 4*4*64
    表  2  参数设定

    Table  2  Parameter settings

    参数 取值
    学习率 0.0001
    优化器 Adam
    折扣因子 0.99
    剪切值 0.2
    批量大小 128
    熵权重 0.02
    GAE权重 0.95
    表  3  无障碍环境中的测试成功率

    Table  3  Test success rate in obstacle-free environment

    算法类型 平均得分 得分标准差 成功率(%)
    CPPO-1 21.31 7.29 97.00
    CPPO-1(高噪声) 20.71 8.98 96.67
    CPPO-2 22.65 0.21 100.00
    CPPO-2(高噪声) 22.64 0.21 100.00
    表  4  静态障碍环境中的测试成功率

    Table  4  Test success rate in static obstacle environment

    算法类型 平均得分 得分标准差 成功率(%)
    CPPO-1 13.96 17.09 81.08
    CPPO-1(高噪声) 12.53 18.16 78.60
    CPPO-2 20.26 9.32 90.52
    CPPO-2(高噪声) 17.84 13.76 88.93
    表  5  动态障碍环境中的测试成功率

    Table  5  Test success rate in dynamic obstacle environment

    算法类型 平均得分 得分标准差 成功率(%)
    CPPO-1 7.52 19.70 65.34
    RCPPO-N 12.34 17.34 78.47
    RCPPO-N(高动态) 11.02 18.06 74.73
    RCPPO 15.61 14.56 85.32
    RCPPO(高动态) 15.02 16.02 82.63
    表  6  RCPPO泛化性测试成功率

    仿真环境 平均得分 得分标准差 成功率(%)
    无障碍 22.61 0.28 100.00
    静态障碍 17.70 13.07 89.36
    动态障碍 15.61 14.56 85.32
