马宁 曹云峰

马宁, 曹云峰. 面向无人机自主着陆的视觉感知与位姿估计方法综述. 自动化学报, 2024, 50(7): 1284−1304 doi: 10.16383/j.aas.c230557
Ma Ning, Cao Yun-Feng. A survey on vision-based sensing and pose estimation methods for UAV autonomous landing. Acta Automatica Sinica, 2024, 50(7): 1284−1304 doi: 10.16383/j.aas.c230557
doi: 10.16383/j.aas.c230557
基金项目: 国家自然科学基金 (U2033201) 资助

    马宁:南京航空航天大学航天学院博士研究生. 2017年获得南京航空航天大学学士学位. 主要研究方向为先进飞行控制技术. E-mail: maning@nuaa.edu.cn

    曹云峰:南京航空航天大学航天学院教授. 主要研究方向为飞行器控制与导航, 无人系统感知与规避和基于模型的复杂系统设计. 本文通信作者. E-mail: cyfac@nuaa.edu.cn

A Survey on Vision-based Sensing and Pose Estimation Methods for UAV Autonomous Landing

Funds: Supported by National Natural Science Foundation of China (U2033201)
    MA Ning Ph.D. candidate at the College of Astronautics, Nanjing University of Aeronautics and Astronautics. She received her bachelor degree from Nanjing University of Aeronautics and Astronautics in 2017. Her main research interest is advanced flight control technology

    CAO Yun-Feng Professor at the College of Astronautics, Nanjing University of Aeronautics and Astronautics. His research interest covers control and navigation of aircrafts, sense and avoid of unmanned systems, and model-based complex systems design. Corresponding author of this paper

  • 摘要: 自主着陆技术是制约无人机 (Unmanned aerial vehicle, UAV) 自主性等级提升中极具挑战性的一项技术. 立足于未来基于视觉的无人机自主着陆技术的发展需求, 围绕其中的核心问题——着陆场检测与位姿估计, 对近十年来国内外无人机自主着陆领域中基于视觉的着陆场检测与位姿估计方法研究进展进行总结. 首先, 在分析无人机自主着陆应用需求的基础上, 指出机器视觉在无人机自主着陆领域的应用优势, 并凝练出存在的科学问题; 其次, 按不同应用场景划分对着陆场检测算法进行梳理; 然后, 分别对纯视觉、多源信息融合的位姿估计技术研究成果进行归纳; 最后, 总结该领域有待进一步解决的难点, 并对未来的技术发展趋势进行展望.
  • 图  1  无人机自主控制等级规划

    Fig.  1  Autonomous control level planning of UAV

    图  2  几种机器视觉传感器的测量原理示意图

    Fig.  2  Schematic diagram of measuring principles of several machine vision sensors

    图  3  基于视觉的自主着陆系统结构图

    Fig.  3  Structure diagram of vision-based autonomous landing system

    图  4  PnP问题的数学描述

    Fig.  4  Mathematical description of PnP problem

    图  5  PnL问题的数学描述

    Fig.  5  Mathematical description of PnL problem

    图  6  基于连续帧的位姿估计方法示意图

    Fig.  6  Diagram of pose estimation method based on sequence frames

    表  1  FAA精密进近与着陆标准

    Table  1  The FAA precision approach and landing standard

    着陆分级 决断高度(m) 水平精度(m) 垂直精度(m) 角度容差(%)
    I类 60 9.1 3.0 7.5
    II类 30 4.6 1.4 4.0
    III类 15 4.1 0.5 4.0
    表  2  几种机器视觉传感器的测量原理及特点

    Table  2  Measurement principles and characteristics of several machine vision sensors

    传感器类型 测量方式 测量原理 有效测量范围(m) 测量精度
    ToF 主动视觉 通过红外发射器发射调制过的光脉冲, 再由接收器接收遇到目标后反射回来的光脉冲, 并根据光脉冲的往返时间计算与目标之间的距离 $ 0.1 \sim 10 $ 厘米级
    结构光 主动视觉 通过红外激光器, 将具有一定结构特征的光线投射到被拍摄物体上, 再由专门的红外摄像头进行采集反射的结构光图案, 根据三角测量原理进行深度信息的计算 $ 0.1 \sim 6 $ 毫米级
    双目(立体) 视觉 被动视觉 不需要主动对外发射光源, 通过左右两个摄像头获取图像信息, 解算视差得出目标的位置和深度信息 $ 0.3 \sim 25 $ 厘米级
    单目视觉 被动视觉 不需要主动对外发射光源, 通过对单目摄像头获取的图像信息进行增强、目标检测及跟踪、位姿估计等一系列的图像算法处理, 间接地获取目标的相对位姿信息 $0.3 \sim 20\, 000$
    表  3  典型的着陆场检测方法总结

    Table  3  A summary of typical landing site detection methods

    文献 着陆场
    着陆场检测方法 特殊应用场景 实验结果
    [33] “H”形 仿射不变矩和Harris 角点检测 $\checkmark$ $\checkmark$ 平均检测精度为95%
    [36] “H”形 基于DLS 的椭圆拟合方法 $\checkmark$ 平均检测精度为92%
    [37] “H”形 基于分层特征和特征金字塔的改进
    YOLOv3-tiny 网络模型
    $\checkmark$ 平均检测精度为85.88%, 平均检测速度为17 Hz
    [38] “H”形 融合高低层特征的改进SSD 网络模型 $\checkmark$ $\checkmark$ 平均检测精度为85.88%, 平均检测速度为17 Hz
    [41] “H”形 基于深度残差网络和特征金字塔的改进
    SSD 网络模型
    $\checkmark$ $\checkmark$ 平均检测精度约为78%
    [34] “T”形 Canny 边缘检测与Hu 矩匹配 平均检测速度为33 Hz
    [35] 3D标识 Canny 和SURF 特征 $\checkmark$ 平均检测误差约为3 px, 平均检测速度为 63 Hz
    [39] 矩形 YOLOv3-tiny 网络模型和改进TLD $\checkmark$ $\checkmark$ 平均检测精度为98.5%, 平均检测速度为53 Hz
    [42] 圆形 VGG-M 模型与主动强化学习 $\checkmark$ 平均检测误差为13.55 px
    [49] 圆形 自动阈值分割算法 $\checkmark$ $\checkmark$ 平均检测精度为66%
    [50] 圆形 HSV 分割和Canny 边缘检测 $\checkmark$ $\checkmark$ 平均检测误差约为5 px
    [51] 圆形 LLIE-Net 图像增强网络模型和基于
    $\checkmark$ 平均检测精度为88%, 平均检测速度为21 Hz
    [52] 矩形 改进的ERFNet 网络模型 $\checkmark$ 平均检测精度为76.35%, 平均检测速度为45 Hz
    [44] AprilTag 基于ROI 和CMT 的改进AprilTag 算法 $\checkmark$ 自主降落的精度为0.3 m
    [43] AprilTag 两级级联的改进MobileNet 网络模型 $\checkmark$ 平均检测精度为98%, 平均检测速度为 31 Hz
    [45] AprilTag 基于ROI 的AprilTag 算法 $\checkmark$ 平均检测精度为100%
    [47] AprilTag 基于局部搜索和调整分辨率策略的改进
    AprilTag 识别算法
    $\checkmark$ 平均检测速度为20 Hz
    [48] AprilTag AprilTag 编码和阈值法 $\checkmark$ $\checkmark$ $\checkmark$ 平均检测精度为98.8%
    [46] ArUco HOG 特征和基于TLD 框架的改进KCF 算法 $\checkmark$ 平均检测精度为82.24%, 平均
    检测速度为31.47 Hz
    [55] 舰基跑道 EDline 线特征检测 $\checkmark$ 平均检测精度为65.5%
    [57] 舰基跑道 形态学特征和边缘检测 $\checkmark$ 平均检测误差约为7 px
    [53] 陆基跑道 基于LSD 的改进FDCM 边缘检测 平均检测误差约为10 px, 平均检测速度为 13 Hz
    [54] 陆基跑道 YOLOv3 剪枝模型和概率Hough 变换 $\checkmark$ $\checkmark$ 平均检测精度约70%, 平均检测速度为16 Hz
    [56] 陆基跑道 频域残差法与SIFT 特征 $\checkmark$ 平均检测精度为94%
    [58] 陆基跑道 基于分割的区域竞争和特定能量函数最小化策略 $\checkmark$ $\checkmark$ 平均检测误差约为8 px, 平均检测速度
    不低于20 Hz
    [59] 陆基跑道 SIFT 特征与CSRT 跟踪 $\checkmark$ 平均检测精度为94.89%, 平均检测速度为4.3 Hz
    [61] 陆基跑道 基于角点回归的改进YOLOv3 网络模型 平均检测精度为98.3%, 平均检测速度为25 Hz
    [62] 陆基跑道 RunwayNet 网络模型 平均检测精度为90%
    表  4  典型的单目视觉位姿估计方法梳理

    Table  4  A summary of typical monocular vision-based pose estimation methods

    独立帧[65]正交迭代法500 m飞行半径内最大位置估计误差为5 m, 最大姿态估计误差为$ 2^\circ $
    [66]Powell's-Dogleg 算法3 m飞行半径内三轴平均位置误差分别为17.95 cm、11.50 cm、3.65 cm,
    三轴平均姿态误差分别为$ 8.43^\circ $、$ 9.11^\circ $、$ 0.56^\circ $
    [67]POSIT 算法400 m飞行半径内三轴平均位置误差分别为0.5 m、0.8 m、2.5 m, 偏航角平均误差为$ 0.1^\circ $
    [68]单应矩阵分解3 m飞行半径内位置均方根误差为0.0138 m, 三轴姿态均方根误差分别为
    $ 1.98^\circ $、$ 1.41^\circ $、$ 0.22^\circ $
    [69]Ma.Y.B 编码与L-M 算法2 m飞行半径内俯仰角、滚转角和偏航角的平均误差分别为$ 0.36^\circ $、$ 0.40^\circ $、$ 0.38^\circ $
    [70]L-M 算法2 km飞行半径内平均位置估计误差小于10 m, 平均姿态估计误差小于$ 2^\circ $
    20 m 高度范围内水平位置和高度平均误差分别为0.005 m、0.054 m,
    偏航角平均误差为$ 1.6^\circ $
    [72]目标中心约束与最小二乘法1 m高度范围内平均位置误差小于20 mm, 平均姿态误差小于$ 0.5^\circ $
    [74]L-M 与单状态卡尔曼滤波250 m飞行半径内平均位置误差不超过0.7 m
    [78]最小二乘法60 m高度范围内最大位置估计误差为6.52 m, 最大姿态估计误差为$ 0.08^\circ $
    连续帧[79]多点观测法10 m 高度范围内平均位置误差为1.47 m, 平均姿态误差为$ 1^\circ $
    [80]SURF 与单应性分解0.72 m飞行半径内最大位置估计误差小于0.05 m
    [81]SPoseNet 网络模型80 m飞行半径内位置均方根误差小于7 m, 偏航角均方根误差小于$ 6^\circ $
    [82]基于运动点剔除的优化算法120 m飞行半径内平均位置误差约为2 cm
    [83]P4P 及UKF0.26 m高度范围内平均位置估计误差为2.4%
    [84]BA3 m高度范围内平均位置误差为4 mm
    表  5  不同信息融合层级的特点

    Table  5  Characteristics of different information fusion levels

    像素级融合 特征级融合 位姿级融合
    信息损失 最小 中等 最大
    对传感器的依赖性 最大 中等 最小
    算法复杂度 最高 中等 最低
    系统开放性 最低 中等 最高
    表  6  典型的视觉/惯性融合位姿估计方法梳理

    Table  6  A summary of typical pose estimation methods based on visual-inertial fusion

    滤波[87]视觉/惯性卡尔曼滤波和Mean Shift4 m飞行半径内速度估计均方根误差为0.04 m/s, 位置估计均方根误差为0.02 m
    [88]视觉/惯性/高度计卡尔曼滤波100 m高度范围内平均位置估计误差小于0.4 m, 平均姿态估计误差小于$ 1^\circ $
    [89]视觉/惯性EKF滤波500 m飞行半径内平均位置估计误差小于2 m
    [90]视觉/惯性SR_UKF滤波150 m飞行半径内平均位置估计误差为0.0531 m, 平均姿态估计误差为$0.020\,3^\circ$
    [91]视觉/惯性UKF滤波距离甲板约5 m内平均位置估计误差为0.23 m, 平均姿态估计误差为$ 5^\circ $
    [92]视觉/惯性/气压计ESKF滤波20 m高度范围内平均位置测量误差小于5 m, 速度误差小于2 m/s
    [93]视觉/惯性/雷达联邦滤波器距离甲板400 m内纵向平均位置估计误差为1.6 m, 横侧向平均位置
    估计误差为0.8 m, 航向角平均估计误差为$ 0.1^\circ $
    [94]视觉/惯性歧义校正算法30 m飞行半径内平均位置估计误差约2 cm
    [95]视觉/惯性改进的粒子滤波0.4 m飞行半径内平均位置估计误差约0.87 cm
    [96]视觉/惯性时延滤波器800 m 飞行半径内最大位置估计误差为15 m
    优化[98]视觉/惯性流形优化4 m高度范围内平均位置误差小于0.2 m
    因子图优化300 m高度范围内平均位置估计误差约3 m
    [102]视觉/惯性ResNet18 和LSTM20 m飞行半径内平均位置估计误差为0.08 m
    [103]视觉/惯性CNN和BiLSTM160 m飞行半径内平均高度估计误差小于1.0567 m
    [104]视觉/惯性FlowNet和LSTM3 m高度范围内平均位置估计误差为0.28 m, 平均姿态估计误差为$ 38^\circ $
图(6) / 表(6)
