2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于贝叶斯框架融合的RGB-D图像显著性检测

王松涛 周真 靳薇 曲寒冰

王松涛, 周真, 靳薇, 曲寒冰. 基于贝叶斯框架融合的RGB-D图像显著性检测. 自动化学报, 2020, 46(4): 695-720. doi: 10.16383/j.aas.2018.c170232
引用本文: 王松涛, 周真, 靳薇, 曲寒冰. 基于贝叶斯框架融合的RGB-D图像显著性检测. 自动化学报, 2020, 46(4): 695-720. doi: 10.16383/j.aas.2018.c170232
WANG Song-Tao, ZHOU Zhen, JIN Wei, QU Han-Bing. Saliency Detection for RGB-D Images Under Bayesian Framework. ACTA AUTOMATICA SINICA, 2020, 46(4): 695-720. doi: 10.16383/j.aas.2018.c170232
Citation: WANG Song-Tao, ZHOU Zhen, JIN Wei, QU Han-Bing. Saliency Detection for RGB-D Images Under Bayesian Framework. ACTA AUTOMATICA SINICA, 2020, 46(4): 695-720. doi: 10.16383/j.aas.2018.c170232

基于贝叶斯框架融合的RGB-D图像显著性检测


DOI: 10.16383/j.aas.2018.c170232
详细信息
    作者简介:

    王松涛  北京市科学技术研究院北京市新技术应用研究所助理研究员.哈尔滨理工大学测控技术与仪器省高校重点实验室博士研究生.主要研究方向为计算机视觉, 模式识别, 深度学习. E-mail: wangsongtao1983@163.com

    靳薇   博士, 北京市科学技术研究院北京市新技术应用研究所副研究员.全国公共安全基础标准技术委员会委员.主要研究方向为机器学习, 计算机视觉, 模式识别, 生物特征识别. E-mail: jinwei201002@163.com

    曲寒冰  博士, 北京市科学技术研究院北京市新技术应用研究所副研究员.中国自动化学会智能自动化专业委员会委员.主要研究方向为机器学习, 计算机视觉, 模式识别, 生物特征识别.E-mail:quhanbing@gmail.com

    通讯作者: 周真  哈尔滨理工大学测控技术与通信工程学院教授.主要研究方向为可靠性工程技术, 生物信息检测.本文通信作者. E-mail: zhzh49@126.com
  • 本文责任编委 刘跃虎
  • 基金项目:

    国家自然科学基金 91746207

    北京市科技计划 Z161100001116086

Saliency Detection for RGB-D Images Under Bayesian Framework

More Information
    Author Bio:

    WANG Song-Tao   Assistant professor at Beijing Institute of New Technology Applications, Beijing Academy of Science and Technology. Ph.D. candidate at the Higher Educational Key Laboratory for Measuring & Control Technology and Instrumentations of Heilongjiang Province, Harbin University of Science and Technology. His research interest covers computer vision, pattern recognition, and deep learning

    JIN Wei Associate professor at Beijing Institute of New Technology Applications, Beijing Academy of Science and Technology. She is also a committee member of National Technical Committee for Basic Standards of Public Safety. Her research interest covers machine learning, computer vision, pattern recognition, and biometrics

    QU Han-Bing Associate professor at Beijing Institute of New Technology Applications, Beijing Academy of Science and Technology. He is also a committee member of Intelligent Automation Committee of Chinese Association of Automation (IACAA). His research interest covers machine learning, computer vision, pattern recognition, and biometrics

    Corresponding author: ZHOU Zhen Professor at the School of Measurement-Control Technology and Communications Engineering, Harbin University of Science and Technology. His research interest covers reliability engineering technology and biological information detection. Corresponding author of this paper
  • Recommended by Associate Editor LIU Yue-Hu
  • Fund Project:

    National Natural Science Foundation of China 91746207

    Beijing Science and Technology Program Z161100001116086

  • 摘要: 为了有效融合RGB图像颜色信息和Depth图像深度信息, 提出一种基于贝叶斯框架融合的RGB-D图像显著性检测方法.通过分析3D显著性在RGB图像和Depth图像分布的情况, 采用类条件互信息熵(Class-conditional mutual information, CMI)度量由深层卷积神经网络提取的颜色特征和深度特征的相关性, 依据贝叶斯定理得到RGB-D图像显著性后验概率.假设颜色特征和深度特征符合高斯分布, 基于DMNB (Discriminative mixed-membership naive Bayes)生成模型进行显著性检测建模, 其模型参数由变分最大期望算法进行估计.在RGB-D图像显著性检测公开数据集NLPR和NJU-DS2000上测试, 实验结果表明提出的方法具有更高的准确率和召回率.
    本文责任编委 刘跃虎
    Recommended by Associate Editor LIU Yue-Hu
  • 图  1  RGB-D图像显著性检测方法分类

    Fig.  1  Methodologies of the RGB-D saliency detection

    图  2  3D显著性在RGB-D图像分布情况

    Fig.  2  3D saliency situation in RGB-D images

    图  3  本文方法框图

    Fig.  3  Overview diagram of the proposed model

    图  4  RGB-D图像超像素分割(如RGB图像矩形框区域所显示, 兼顾颜色和深度信息超像素分割得到边缘比只考虑颜色信息要准确.同样情况, Depth图像矩形框区域显示兼顾颜色和深度信息超像素分割得到边缘比只考虑深度信息要准确)

    Fig.  4  Visual samples for superpixel segmentation of RGB-D images (Within the rectangle, the boundary between the foreground and the background segmented by the color and depth cues more accurate than color-based segmentation. Similarly, within the rectangle, the boundary between the foreground and the background segmented by the color and depth cues more accurate than depth-based segmentation)

    图  5  监督迁移学习过程示意图((a)提取Depth图像显著特征的深层卷积神经网络结构图.其中Relu层使用修正线性函数Relu$(x) = \max(x, 0)$保证输出不为负; Lrn表示局部响应归一化层; Dropout表示Dropout层, 在训练时以0.5比例忽略隐层节点防止过拟合. (b)基于深层卷积神经网络提取RGB图像和Depth图像显著特征流程图.首先图像被裁剪成尺寸为227$\times$227$\times$3作为深层卷积神经网络的输入, 在卷积层1通过96核的尺寸为7$\times$7步长为2滤波器卷积滤波, 得到卷积图像通过Relu函数, 再经过池化层1尺寸为3$\times$3步长为2的最大值池化成96个尺寸为55$\times$55的特征图, 最后对得到的特征图进行局部响应归一化.在卷积层2, 池化层2, 卷积层3, 卷积层4, 卷积层5和池化层5执行相似的处理.其池化层5输出作为全连接层6的输入, 经过全连接层7由输出层输出显著类别, 其中输出层采用softmax函数. (c)本文基于监督迁移学习的方法, 在RGB图像训练完成的Clarifai网络的基础上, 利用与RGB图像配对的Depth图像重新训练提取Depth图像显著特征的深层卷积神经网络)

    Fig.  5  Architecture for supervision transfer ((a) The Architecture of Depth CNN, where Relu denotes a rectified linear function Relu$(x) = \max(x, 0)$, which rectify the feature maps thus ensuring the feature maps are always positive, lrn denotes a local response normalization layer, and Dropout is used in the fully connected layers with a rate of 0.5 to prevent CNN from overfitting. (b) The flowchart of image processed based on Depth CNN. A 227 by 227 crop of an image (with 3 planes) is presented as the input. This is convolved with 96 different 1st layer filters, each of size 7 by 7, using a stride of 2 in both $x$ and $y$. The resulting feature maps are then: passed through a rectified linear fuction, pooled (max within 3 by 3 regions, using stride 2), and local response normalized across feature maps to give 96 different 55 by 55 element feature maps. Similar operations are repeated in layers 2, 3, 4, 5. The last two layers are fully connected, taking features from the pooling layer 5 as input in vector form. The final layer is a 2-way softmax function, which indicates the image is salient or not. (c) We train a CNN model for depth images by teaching the network to reproduce the mid-level semantic representation learned from RGB images for which there are paired images)

    图  6  NLPR数据集和NJU-DS2000数据集RGB图像和Depth图像显著特征的类条件互信息熵分布图((a) NLPR数据集颜色-深度显著情况; (b) NLPR数据集颜色显著情况; (c) NLPR数据集深度显著情况; (d) NJU-DS2000数据集颜色-深度显著情况; (e) NJU-DS2000数据集颜色显著情况; (f) NJU-DS2000数据集深度显著情况)

    Fig.  6  Visual result for class-conditional mutual information between color and depth deep features on NLPR and NJU-DS2000 RGB-D image datasets ((a) Color-depth saliency situation in terms of the NLPR dataset, (b) Color saliency situation in terms of the NLPR dataset, (c) Depth saliency situation in terms of the NLPR dataset, (d) Color-depth saliency situation in terms of the NJU-DS2000 dataset, (e) Color saliency situation in terms of the NJU-DS2000 dataset, (f) Depth saliency situation in terms of the NJU-DS2000 dataset.)

    图  7  基于DMNB模型显著性检测的图模型($y$和$\pmb{x}$为可观测变量, $\pmb{z}$为隐藏变量.其中$\pmb{x}_{1:N} = (\pmb{x}_c, \pmb{x}_d)$表示RGB-D图像显著特征, 特征$\pmb{x}_j$服从$C$个均值为$\{\mu_{jk}|j = 1, \cdots, N\}$和方差为$\{\sigma_{jk}^2|j = 1, \cdots, N\}$高斯分布. $y$是标识超像素是否显著的标签, 取值1或者0, 其中1表示显著, 0表示非显著)

    Fig.  7  Graphical models of DMNB for saliency estimation ($y$ and $\pmb{x}$ are the corresponding observed states, and $\pmb{z}$ is the hidden variable, where each feature $\pmb{x}_j$ is assumed to have been generated from one of $C$ Gaussian distribution with a mean of $\{\mu_{jk}|j = 1, \cdots, N\}$ and a variance of $\{\sigma_{jk}^2|j = 1, \cdots, N\}$, $y$ is either 1 or 0 that indicates whether the pixel is salient or not.)

    图  8  对比基于生成聚类和狄利克雷过程聚类方法确定DMNB模型混合分量参数$C$ ((a)针对NLPR数据集显著特征生成聚类图. (b)针对NLPR数据集基于狄利克雷过程的显著特征聚类图, 其中不同图例的数目代表DMNB模型混合分量参数$C$.对于NLPR数据集, 得到$C = 24$. (c)针对NJU-DS2000数据集显著性特征生成聚类图. (d)针对NJU-DS2000数据集基于狄利克雷过程的显著特征聚类图, 其中不同图例的数目代表DMNB模型混合分量参数$C$.对于NJU-DS2000数据集, 得到$C = 28$)

    Fig.  8  Visual result for the number of components $C$ in the DMNB model: generative clusters vs DPMM clustering ((a) Generative clusters for NLPR RGB-D image dataset. (b) DPMM clustering for NLPR RGB-D image dataset, where the number of colors and shapes of the points denote the number of components $C$. We find $C = 24$ using DPMM on the NLPR dataset. (c) Generative clusters for NJU-DS2000 RGB-D image dataset. (d) DPMM clustering for NJU-DS2000 RGB-D image dataset, where the number of colors and shapes of the points denote the number of components $C$. We find $C = 28$ using DPMM on the NJU-DS2000 dataset.)

    图  9  对于NLPR数据集交叉验证DMNB模型混合分量参数$C$, 给定一个由DPMM模型得到的参数$C$的取值范围, 采用10-fold进行交叉验证

    Fig.  9  Cross validation for the parameter $C$ in the DMNB model in terms of NLPR dataset, we use 10-fold cross-validation with the parameter $C$ for DMNB models, the $C$ found using DPMM was adjusted over a wide range in a 10-fold cross-validation

    图  10  NLPR数据集颜色-深度显著情况显著图对比. ((a) RGB图像; (b) Depth图像; (c)真值图; (d) ACSD方法; (e) GMR方法; (f) MC方法; (g) MDF方法; (h) LMH方法; (i) GP方法; (j)本文方法)

    Fig.  10  Visual comparison of the saliency detection in the color-depth saliency situation in terms of NLPR dataset ((a) RGB image, (b) Depth image, (c) Ground truth, (d) ACSD, (e) GMR, (f) MC, (g) MDF, (h) LMH, (i) GP, (j) BFSD)

    图  11  NLPR数据集ROC曲线对比图

    Fig.  11  The ROC curves of different saliency detection models in terms of the NLPR dataset

    图  12  NLPR数据集F测度结果对比图

    Fig.  12  The F-measures of different saliency detection models when used on the NLPR dataset

    图  13  NLPR数据集颜色显著情况显著图对比((a) RGB图像; (b) Depth图像; (c)真值图; (d) ACSD方法; (e) GMR方法; (f) MC方法; (g) MDF方法; (h) LMH方法; (i) GP方法; (j)本文方法)

    Fig.  13  Visual comparison of the saliency detection in the color saliency situation in terms of NLPR dataset ((a) RGB image, (b) Depth image, (c) Ground truth, (d) ACSD, (e) GMR, (f) MC, (g) MDF, (h) LMH, (i) GP, (j) BFSD)

    图  14  NLPR数据集深度显著情况显著图对比((a) RGB图像; (b) Depth图像; (c)真值图; (d) ACSD方法; (e) GMR方法; (f) MC方法; (g) MDF方法; (h) LMH方法; (i) GP方法; (j)本文方法)

    Fig.  14  Visual comparison of the saliency detection in the depth saliency situation in terms of NLPR dataset ((a) RGB image, (b) Depth image, (c) Ground truth, (d) ACSD, (e) GMR, (f) MC, (g) MDF, (h)LMH, (i) GP, (j) BFSD)

    图  15  NJU-DS2000数据集颜色-深度显著情况显著图对比((a) RGB图像; (b) Depth图像; (c)真值图; (d) ACSD方法; (e) GMR方法; (f) MC方法; (g) MDF方法; (h)本文方法)

    Fig.  15  Visual comparison of the saliency detection in the color-depth saliency situation in terms of NJU-DS2000 dataset ((a) RGB image, (b) Depth image, (c) Ground truth, (d) ACSD, (e) GMR, (f) MC, (g) MDF, (h) BFSD)

    图  16  NJU-DS2000数据集颜色显著情况显著图对比. ((a) RGB图像; (b) Depth图像; (c)真值图; (d) ACSD方法; (e) GMR方法; (f) MC方法; (g) MDF方法; (h)本文方法)

    Fig.  16  Visual comparison of the saliency detection in the color saliency situation in terms of NJU-DS2000 dataset ((a) RGB image, (b) Depth image, (c) Ground truth, (d) ACSD, (e) GMR, (f) MC, (g) MDF, (h) BFSD)

    图  17  NJU-DS2000数据集深度显著情况显著图对比((a) RGB图像; (b) Depth图像; (c)真值图; (d) ACSD方法; (e) GMR方法; (f) MC方法; (g) MDF方法; (h)本文方法)

    Fig.  17  Visual comparison of the saliency detection in the depth saliency situation in terms of NJU-DS2000 dataset ((a) RGB image; (b) Depth image; (c) Ground truth; (d) ACSD; (e) GMR; (f) MC; (g) MDF; (h) BFSD)

    图  18  NJU-DS2000数据集ROC对比图

    Fig.  18  The ROC curves of different saliency detection models in terms of the NJU-DS2000 dataset

    图  19  NJU-DS2000数据集F测度结果对比图

    Fig.  19  The F-measures of different saliency detection models when used on the NJU-DS2000 dataset

    图  20  失败情况

    Fig.  20  Some failure cases

    表  1  RGB-D图像数据集中3D显著性分布比例

    Table  1  3D saliency situation on RGB-D image dataset

    数据集 颜色-深度显著 颜色显著 深度显著
    NLPR[40] 76.7% 20.8% 2.5%
    NJU-DS2000[38] 69.4% 16.6% 14.0%
    下载: 导出CSV

    表  2  参数表

    Table  2  Summary of parameters

    变量名 取值范围 参数描述
    $\tau$ (0, 1) 类条件互信息熵阈值
    $\alpha$ (0, 20) 狄利克雷分布参数
    $\theta$ (0, 1) 多项式分布参数
    $\eta$ (-10.0, 3.0) 伯努利分布参数
    $\Omega$ ((0, 1), (0, 0.2)) 高斯分布参数
    $N$ $> 2$ 特征维度
    $C$ $> 2$ DMNB模型分量参数
    $\varepsilon_\mathcal{L}$ (0, 1) EM收敛阈值
    下载: 导出CSV

    表  3  NLPR数据集和NJU-DS2000数据集分布情况

    Table  3  The benchmark and existing 3D saliency detection dataset

    数据集 图片数 显著目标数 场景种类 中央偏置
    NLPR 1000 (大多数)一个 11
    NJU-DS2000 2000 (大多数)一个 $>$ 20
    下载: 导出CSV

    表  4  NLPR数据集处理一幅RGB-D图像平均时间比较

    Table  4  Comparison of the average running time for per RGB-D image on the NLPR dataset

    数据集 GMR MC MDF ACSD LMH GP BFSD
    NLPR 2.9s 72.7s $942.3$s 0.2s 2.8s 38.9s 80.1s
    下载: 导出CSV

    表  5  AUC值比较

    Table  5  Comparison of the AUC on the NLPR dataset

    显著分布情况 ACSD GMR MC MDF LMH GP BFSD
    颜色-深度显著 0.61 0.73 0.81 0.82 0.70 0.79 0.83
    颜色显著 0.56 0.74 0.84 0.83 0.61 0.65 0.84
    深度显著 0.63 0.71 0.76 0.74 0.75 0.81 0.90
    总体 0.60 0.73 0.81 0.80 0.69 0.78 0.85
    下载: 导出CSV
  • [1] Borji A, Itti L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 185-207 doi:  10.1109/TPAMI.2012.89
    [2] Wang Wen-Guan, Shen Jian-Bing, Shao Ling, Porikli Fatih. Correspondence driven saliency transfer. IEEE Transaction on Image Processing, 2016, 25(11): 5025-5034 doi:  10.1109/TIP.2016.2601784
    [3] 丁正虎, 余映, 王斌, 张立明.选择性视觉注意机制下的多光谱图像舰船检测.计算机辅助设计与图形学学报, 2011, 23(3): 419-425 http://d.old.wanfangdata.com.cn/Periodical/jsjfzsjytxxxb201103007

    Ding Zheng-Hu, Yu Ying, Wang Bin, Zhang Li-Ming. Visual attention-based ship detection in multispectral imagery. Journal of Computer-Aided Design & Computer Graphics, 2011, 23(3): 419-425 http://d.old.wanfangdata.com.cn/Periodical/jsjfzsjytxxxb201103007
    [4] Gao D S, Han S Y, Vasconcelos N. Discriminant saliency, the detection of suspicious coincidences, and applications to visual recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(6): 989-1005 doi:  10.1109/TPAMI.2009.27
    [5] Jian M W, Dong J Y, Ma J. Image retrieval using wavelet-based salient regions. The Imaging Science Journal, 2011, 59(4): 219-231 doi:  10.1179/136821910X12867873897355
    [6] 王向阳, 杨红颖, 郑宏亮, 吴俊峰.基于视觉权值的分块颜色直方图图像检索算法.自动化学报, 2010, 36(10): 1489-1492 doi:  10.3724/SP.J.1004.2010.01489

    Wang Xiang-Yang, Yang Hong-Ying, Zheng Hong-Liang, Wu Jun-Feng. A color block-histogram image retrieval based on visual weight. Acta Automatica Sinica, 2010, 36(10): 1489-1492 doi:  10.3724/SP.J.1004.2010.01489
    [7] 冯欣, 杨丹, 张凌.基于视觉注意力变化的网络丢包视频质量评估.自动化学报, 2011, 37(11): 1322-1331 doi:  10.3724/SP.J.1004.2011.01322

    Feng Xin, Yang Dan, Zhang Ling. Saliency variation based quality assessment for packet-loss-impaired videos. Acta Automatica Sinica, 2011, 37(11): 1322-1331 doi:  10.3724/SP.J.1004.2011.01322
    [8] Gupta R, Chaudhury S. A scheme for attentional video compression. In: Proceedings of the 4th International Conference on Pattern Recognition and Machine Intelligence. Moscow, Russia: IEEE, 2011. 458-465
    [9] Guo C L, Zhang L M. A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression. IEEE Transactions on Image Processing, 2010, 19(1): 185-198 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=560c7c523a5fae193c072cc702070cd8
    [10] Kim W, Kim C. A novel image importance model for content-aware image resizing. In: Proceedings of the 18th IEEE International Conference on Image Processing. Brussels, Belgium: IEEE, 2011. 2469-2472
    [11] 江晓莲, 李翠华, 李雄宗.基于视觉显著性的两阶段采样突变目标跟踪算法.自动化学报, 2014, 40(6): 1098-1107 doi:  10.3724/SP.J.1004.2014.01098

    Jiang Xiao-Lian, Li Cui-Hua, Li Xiong-Zong. Saliency based tracking method for abrupt motions via two-stage sampling. Acta Automatica Sinica, 2014, 40(6): 1098-1107 doi:  10.3724/SP.J.1004.2014.01098
    [12] 黎万义, 王鹏, 乔红.引入视觉注意机制的目标跟踪方法综述.自动化学报, 2014, 40(4): 561-576 doi:  10.3724/SP.J.1004.2014.00561

    Li Wan-Yi, Wang Peng, Qiao Hong. A survey of visual attention based methods for object tracking. Acta Automatica Sinica, 2014, 40(4): 561-576 doi:  10.3724/SP.J.1004.2014.00561
    [13] Le Callet P, Niebur E. Visual attention and applications in multimedia technologies. Proceedings of the IEEE, 2013, 101(9): 2058-2067 doi:  10.1109/JPROC.2013.2265801
    [14] Wang J L, Fang Y M, Narwaria M, Lin W S, Le Callet P. Stereoscopic image retargeting based on 3D saliency detection, In: Proceedings of 2014 International Conference on Acoustics, Speech, and Signal Processing. Florence, Italy: IEEE, 2014. 669-673
    [15] Kim H, Lee S, Bovik A C. Saliency prediction on stereoscopic videos. IEEE Transactions on Image Processing, 2014, 23(4): 1476-1490 doi:  10.1109/TIP.2014.2303640
    [16] Zhang Y, Jiang G Y, Yu M, Chen K. Stereoscopic visual attention model for 3D video. In: Proceedings of the 16th International Conference on Multimedia Modeling. Chongqing, China: Springer, 2010. 314-324
    [17] Uherčík M, Kybic J, Zhao Y, Cachard C, Liebgott H. Line filtering for surgical tool localization in 3D ultrasound images. Computers in Biology and Medicine, 2013, 43(12): 2036-2045 doi:  10.1016/j.compbiomed.2013.09.020
    [18] Zhao Y, Cachard C, Liebgott H. Automatic needle detection and tracking in 3D ultrasound using an ROI-based RANSAC and Kalman method. Ultrasonic Imaging, 2013, 35(4): 283-306 doi:  10.1177/0161734613502004
    [19] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254-1259 doi:  10.1109/34.730558
    [20] 胡正平, 孟鹏权.全局孤立性和局部同质性图表示的随机游走显著目标检测算法.自动化学报, 2011, 37(10): 1279-1284 doi:  10.3724/SP.J.1004.2011.01279

    Hu Zheng-Ping, Meng Peng-Quan. Graph presentation random walk salient object detection algorithm based on global isolation and local homogeneity. Acta Automatica Sinica, 2011, 37(10): 1279-1284 doi:  10.3724/SP.J.1004.2011.01279
    [21] Cheng M M, Mitra N J, Huang X L, Torr P H S, Hu S M. Global contrast based salient region detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 569-582 doi:  10.1109/TPAMI.2014.2345401
    [22] 唐勇, 杨林, 段亮亮.基于图像单元对比度与统计特性的显著性检测.自动化学报, 2013, 39(10): 1632-1641 doi:  10.3724/SP.J.1004.2013.01632

    Tang Yong, Yang Lin, Duan Liang-Liang. Image cell based saliency detection via color contrast and distribution. Acta Automatica Sinica, 2013, 39(10): 1632-1641 doi:  10.3724/SP.J.1004.2013.01632
    [23] 郭迎春, 袁浩杰, 吴鹏.基于Local特征和Regional特征的图像显著性检测.自动化学报, 2013, 39(8): 1214-1224 doi:  10.3724/SP.J.1004.2013.01214

    Guo Ying-Chun, Yuan Hao-Jie, Wu Peng. Image saliency detection based on local and regional features. Acta Automatica Sinica, 2013, 39(8): 1214-1224 doi:  10.3724/SP.J.1004.2013.01214
    [24] 徐威, 唐振民.利用层次先验估计的显著性目标检测.自动化学报, 2015, 41(4): 799-812 doi:  10.16383/j.aas.2015.c140281

    Xu Wei, Tang Zhen-Min. Exploiting hierarchical prior estimation for salient object detection. Acta Automatica Sinica, 2015, 41(4): 799-812 doi:  10.16383/j.aas.2015.c140281
    [25] Shi K Y, Wang K Z, Lu J, B Lin L. PISA: pixelwise image saliency by aggregating complementary appearance contrast measures with spatial priors. In: Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013. 2115-2122
    [26] Judd T, Ehinger K, Durand F, Torralba A. Learning to predict where humans look. In: Proceedings of the 12th International Conference on Computer Vision. Kyoto, Japan: IEEE, 2009. 2106-2113
    [27] Liu T, Yuan Z J, Sun J, Wang J D, Zheng N N, Tang X O, et al. Learning to detect a salient object. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(2): 353-367 doi:  10.1109/TPAMI.2010.70
    [28] Wei Y C, Wen F, Zhu W J, Sun J. Geodesic saliency using background priors. In: Proceedings of the 12th European Conference on Computer Vision. Firenze, Italy: Springer, 2012. 29-42
    [29] 钱生, 陈宗海, 林名强, 张陈斌.基于条件随机场和图像分割的显著性检测.自动化学报, 2015, 41(4): 711-724 doi:  10.16383/j.aas.2015.c140328

    Qian Sheng, Chen Zong-Hai, Lin Ming-Qiang, Zhang Chen-Bin. Saliency detection based on conditional random field and image segmentation. Acta Automatica Sinica, 2015, 41(4): 711-724 doi:  10.16383/j.aas.2015.c140328
    [30] Shen X H, Wu Y. A unified approach to salient object detection via low rank matrix recovery. In: Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012. 853-860
    [31] Jiang H Z, Wang J D, Yuan Z J, Liu T, Zheng N N, Li S P. Automatic salient object segmentation based on context and shape prior. In: Proceedings of 2011 British Machine Vision Conference. Dundee, UK: BMVA Press, 2011. 110.1-110.12
    [32] Yang C, Zhang L H, Lu H C, Ruan X, Yang M H. Saliency detection via graph-based manifold ranking. In: Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013. 3166-3173
    [33] Zhao R, Ouyang W L, Li H S, Wang X G. Saliency detection by multi-context deep learning. In: Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015. 1265-1274
    [34] Li G B, Yu Y Z. Visual saliency detection based on multiscale deep CNN features. IEEE Transactions on Image Processing, 2016, 25(11): 5012-5024 doi:  10.1109/TIP.2016.2602079
    [35] Lang C Y, Nguyen T V, Katti H, Yadati K, Kankanhalli M, Yan S C. Depth matters: influence of depth cues on visual saliency. In: Proceedings of 12th European Conference on Computer Vision. Firenze, Italy: Springer, 2012. 101-115
    [36] Desingh K, Krishna K M, Rajan D, Jawahar C V. Depth really matters: improving visual salient region detection with depth. In: Proceedings of 2013 British Machine Vision Conference. Bristol, England: BMVA Press, 2013. 98.1-98.11
    [37] Niu Y Z, Geng Y J, Li X Q, Liu F. Leveraging stereopsis for saliency analysis. In: Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012. 454-461
    [38] Ju R, Ge L, Geng W J, Ren T W, Wu G S. Depth saliency based on anisotropic center-surround difference. In: Proceedings of 2014 IEEE International Conference on Image Processing. Pairs, France: IEEE, 2014. 1115-1119 http://www.researchgate.net/publication/282375096_Depth_saliency_based_on_anisotropic_center-surround_difference
    [39] Ren J Q, Gong X J, Yu L, Zhou W H, Yang M Y. Exploiting global priors for RGB-D saliency detection. In: Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Boston, MA, USA: IEEE, 2015. 25-32 http://www.researchgate.net/publication/288507923_Exploiting_global_priors_for_RGB-D_saliency_detection
    [40] Peng H W, Li B, Xiong W H, Hu W M, Ji R R. RGBD salient object detection: a benchmark and algorithms. In: Proceedings of 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014. 92-109
    [41] Fang Y M, Wang J L, Narwaria M, Le Callet P, Lin W S. Saliency detection for stereoscopic images. IEEE Transactions on Image Processing, 2014, 23(6): 2625-2636 doi:  10.1109/TIP.2014.2305100
    [42] Ciptadi A, Hermans T, Rehg J. An in depth view of saliency. In: Proceedings of 2013 British Machine Vision Conference. Bristol, United Kingdom: BMVA Press, 2013. 112.1-112.11
    [43] Wu P L, Duan L L, Kong L F. RGB-D salient object detection via feature fusion and multi-scale enhancement. In: Proceedings of 2015 CCF Chinese Conference on Computer Vision. Xi'an, China: Springer, 2015. 359-368 doi:  10.1007/978-3-662-48570-5_35
    [44] Iatsun I, Larabi M C, Fernandez-Maloigne C. Using monocular depth cues for modeling stereoscopic 3D saliency. In: Proceedings of 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Florence, Italy: IEEE, 2014. 589-593
    [45] Ouerhani N, Hugli H. Computing visual attention from scene depth. In: Proceedings of the 15th International Conference on Pattern Recognition. Barcelona, Spain: IEEE, 2000. 375-378
    [46] Xue H Y, Gu Y, Li Y J, Yang J. RGB-D saliency detection via mutual guided manifold ranking. In: Proceedings of 2015 IEEE International Conference on Image Processing. Quebec City, QC, Canada: IEEE, 2015. 666-670
    [47] Wang J L, Da Silva M P, Le Callet P, Ricordel V. Computational model of stereoscopic 3D visual saliency. IEEE Transactions on Image Processing, 2013, 22(6): 2151-2165 doi:  10.1109/TIP.2013.2246176
    [48] Iatsun I, Larabi M C, Fernandez-Maloigne C. Visual attention modeling for 3D video using neural networks. In: Proceedings of 2014 International Conference on 3D Imaging. Liege, Belglum: IEEE, 2014. 1-8
    [49] Fang Y M, Lin W S, Fang Z J, Lei J J, Le Callet P, Yuan F N. Learning visual saliency for stereoscopic images. In: Proceedings of 2014 IEEE International Conference on Multimedia and Expo Workshops. Chengdu, China: IEEE, 2014. 1-6
    [50] Bertasius G, Park H S, Shi J B. Exploiting egocentric object prior for 3D saliency detection. arXiv: 1511.02682, 2015.
    [51] Achanta R, Shaji A, Smith K, Lucchi A, Fua P, Süsstrunk S. Slic superpixels compared to state-of-the-art superpixel methods. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274-2282 doi:  10.1109/TPAMI.2012.120
    [52] Qu L Q, He S F, Zhang J W, Tian J D, Tang Y D, Yang Q X. RGBD salient object detection via deep fusion. IEEE Transactions on Image Processing, 2017, 26(5): 2274-2285 doi:  10.1109/TIP.2017.2682981
    [53] Gupta S, Hoffman J, Malik J. Cross modal distillation for supervision transfer. In: Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 2827-2836
    [54] Shan H H, Banerjee A, Oza N C. Discriminative mixed-membership models. In: Proceedings of the 9th IEEE International Conference on Data Mining. Miami, Florida, USA: IEEE, 2009. 466-475
    [55] Wang S T, Zhou Z, Qu H B, Li B. Visual saliency detection for RGB-D images with generative model. In: Proceedings of the 13th Asian Conference on Computer Vision. Taipei, China: Springer, 2016. 20-35
    [56] Rish I. An empirical study of the naive Bayes classifier. Journal of Universal Computer Science, 2001, 3(22): 41-46
    [57] Blei D M, Jordan M I. Variational inference for dirichlet process mixtures. Bayesian Analysis, 2006, 1(1): 121-143 doi:  10.1214/06-BA104
    [58] Sun D Q, Roth S, Black M J. Secrets of optical flow estimation and their principles. In: Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA: IEEE, 2010. 2432-2439
  • [1] 付晓, 沈远彤, 李宏伟, 程晓梅. 基于半监督编码生成对抗网络的图像分类模型[J]. 自动化学报, 2020, 46(3): 531-539. doi: 10.16383/j.aas.c180212
    [2] 张芳, 王萌, 肖志涛, 吴骏, 耿磊, 童军, 王雯. 基于全卷积神经网络与低秩稀疏分解的显著性检测[J]. 自动化学报, 2019, 45(11): 2148-2158. doi: 10.16383/j.aas.2018.c170535
    [3] 陈加, 张玉麒, 宋鹏, 魏艳涛, 王煜. 深度学习在基于单幅图像的物体三维重建中的应用[J]. 自动化学报, 2019, 45(4): 657-668. doi: 10.16383/j.aas.2018.c180236
    [4] 李良福, 马卫飞, 李丽, 陆铖. 基于深度学习的桥梁裂缝检测算法研究[J]. 自动化学报, 2019, 45(9): 1727-1742. doi: 10.16383/j.aas.2018.c170052
    [5] 李东民, 李静, 梁大川, 王超. 基于多尺度先验深度特征的多目标显著性检测方法[J]. 自动化学报, 2019, 45(11): 2058-2070. doi: 10.16383/j.aas.c170154
    [6] 张号逵, 李映, 姜晔楠. 深度学习在高光谱图像分类领域的研究现状与展望[J]. 自动化学报, 2018, 44(6): 961-977. doi: 10.16383/j.aas.2018.c170190
    [7] 田娟秀, 刘国才, 谷珊珊, 鞠忠建, 刘劲光, 顾冬冬. 医学图像分析深度学习方法研究与挑战[J]. 自动化学报, 2018, 44(3): 401-424. doi: 10.16383/j.aas.2018.c170153
    [8] 孙亮, 韩毓璇, 康文婧, 葛宏伟. 基于生成对抗网络的多视图学习与重构算法[J]. 自动化学报, 2018, 44(5): 819-828. doi: 10.16383/j.aas.2018.c170496
    [9] 林懿伦, 戴星原, 李力, 王晓, 王飞跃. 人工智能研究的新前线:生成式对抗网络[J]. 自动化学报, 2018, 44(5): 775-792. doi: 10.16383/j.aas.2018.y000002
    [10] 刘畅, 刘勤让. 使用增强学习训练多焦点聚焦模型[J]. 自动化学报, 2017, 43(9): 1563-1570. doi: 10.16383/j.aas.2017.c160643
    [11] 罗建豪, 吴建鑫. 基于深度卷积特征的细粒度图像分类研究综述[J]. 自动化学报, 2017, 43(8): 1306-1318. doi: 10.16383/j.aas.2017.c160425
    [12] 林华锋, 李静, 刘国栋, 梁大川, 李东民. 基于自适应背景模板与空间先验的显著性物体检测方法[J]. 自动化学报, 2017, 43(10): 1736-1748. doi: 10.16383/j.aas.2017.c160431
    [13] 胡长胜, 詹曙, 吴从中. 基于深度特征学习的图像超分辨率重建[J]. 自动化学报, 2017, 43(5): 814-821. doi: 10.16383/j.aas.2017.c150634
    [14] 张慧, 王坤峰, 王飞跃. 深度学习在目标视觉检测中的应用进展与展望[J]. 自动化学报, 2017, 43(8): 1289-1305. doi: 10.16383/j.aas.2017.c160822
    [15] Wang Songtao, Zhou Zhen, Qu Hanbing, Li Bin. Bayesian Saliency Detection for RGB-D Images[J]. 自动化学报, 2017, 43(10): 1810-1828. doi: 10.16383/j.aas.2017.e160141
    [16] 耿杰, 范剑超, 初佳兰, 王洪玉. 基于深度协同稀疏编码网络的海洋浮筏SAR图像目标识别[J]. 自动化学报, 2016, 42(4): 593-604. doi: 10.16383/j.aas.2016.c150425
    [17] 随婷婷, 王晓峰. 一种基于CLMF的深度卷积神经网络模型[J]. 自动化学报, 2016, 42(6): 875-882. doi: 10.16383/j.aas.2016.c150741
    [18] 贺昱曜, 李宝奇. 一种组合型的深度学习模型学习率策略[J]. 自动化学报, 2016, 42(6): 953-958. doi: 10.16383/j.aas.2016.c150681
    [19] 钱生, 陈宗海, 林名强, 张陈斌. 基于条件随机场和图像分割的显著性检测[J]. 自动化学报, 2015, 41(4): 711-724. doi: 10.16383/j.aas.2015.c140328
    [20] 郭迎春, 袁浩杰, 吴鹏. 基于Local特征和Regional特征的图像显著性检测[J]. 自动化学报, 2013, 39(8): 1214-1224. doi: 10.3724/SP.J.1004.2013.01214
  • 加载中
图(20) / 表(5)
计量
  • 文章访问数:  3665
  • HTML全文浏览量:  420
  • PDF下载量:  175
  • 被引次数: 0
出版历程
  • 收稿日期:  2017-05-02
  • 录用日期:  2018-04-16
  • 刊出日期:  2020-04-24

基于贝叶斯框架融合的RGB-D图像显著性检测

doi: 10.16383/j.aas.2018.c170232
    基金项目:

    国家自然科学基金 91746207

    北京市科技计划 Z161100001116086

    作者简介:

    王松涛  北京市科学技术研究院北京市新技术应用研究所助理研究员.哈尔滨理工大学测控技术与仪器省高校重点实验室博士研究生.主要研究方向为计算机视觉, 模式识别, 深度学习. E-mail: wangsongtao1983@163.com

    靳薇   博士, 北京市科学技术研究院北京市新技术应用研究所副研究员.全国公共安全基础标准技术委员会委员.主要研究方向为机器学习, 计算机视觉, 模式识别, 生物特征识别. E-mail: jinwei201002@163.com

    曲寒冰  博士, 北京市科学技术研究院北京市新技术应用研究所副研究员.中国自动化学会智能自动化专业委员会委员.主要研究方向为机器学习, 计算机视觉, 模式识别, 生物特征识别.E-mail:quhanbing@gmail.com

    通讯作者: 周真  哈尔滨理工大学测控技术与通信工程学院教授.主要研究方向为可靠性工程技术, 生物信息检测.本文通信作者. E-mail: zhzh49@126.com
  • 本文责任编委 刘跃虎

摘要: 为了有效融合RGB图像颜色信息和Depth图像深度信息, 提出一种基于贝叶斯框架融合的RGB-D图像显著性检测方法.通过分析3D显著性在RGB图像和Depth图像分布的情况, 采用类条件互信息熵(Class-conditional mutual information, CMI)度量由深层卷积神经网络提取的颜色特征和深度特征的相关性, 依据贝叶斯定理得到RGB-D图像显著性后验概率.假设颜色特征和深度特征符合高斯分布, 基于DMNB (Discriminative mixed-membership naive Bayes)生成模型进行显著性检测建模, 其模型参数由变分最大期望算法进行估计.在RGB-D图像显著性检测公开数据集NLPR和NJU-DS2000上测试, 实验结果表明提出的方法具有更高的准确率和召回率.

本文责任编委 刘跃虎

English Abstract

王松涛, 周真, 靳薇, 曲寒冰. 基于贝叶斯框架融合的RGB-D图像显著性检测. 自动化学报, 2020, 46(4): 695-720. doi: 10.16383/j.aas.2018.c170232
引用本文: 王松涛, 周真, 靳薇, 曲寒冰. 基于贝叶斯框架融合的RGB-D图像显著性检测. 自动化学报, 2020, 46(4): 695-720. doi: 10.16383/j.aas.2018.c170232
WANG Song-Tao, ZHOU Zhen, JIN Wei, QU Han-Bing. Saliency Detection for RGB-D Images Under Bayesian Framework. ACTA AUTOMATICA SINICA, 2020, 46(4): 695-720. doi: 10.16383/j.aas.2018.c170232
Citation: WANG Song-Tao, ZHOU Zhen, JIN Wei, QU Han-Bing. Saliency Detection for RGB-D Images Under Bayesian Framework. ACTA AUTOMATICA SINICA, 2020, 46(4): 695-720. doi: 10.16383/j.aas.2018.c170232
  • 显著性检测是计算机视觉中的一项重要研究内容, 是指模拟人类视觉注意机制实现准确、快速地检测图像中最感兴趣区域的过程. Borji等给出了显著性(Saliency)定义, 直观地描述场景中相对其邻近区域突出的目标或区域, 是对于观察者而言的场景特性[1].人类视觉注意机制(Visual attention mechanism)通过优先处理少数几个显著区域或目标, 而忽略或舍弃其他的非显著区域或目标, 能够有选择地分配计算资源, 从而极大地提高视觉信息处理的工作效率.因此, 基于视觉注意机制的显著性计算模型得到广泛的研究.计算机在处理输入图像或者视频时, 通过检测显著性区域来实现判断其视觉信息的重要性, 应用到目标检测[2-3]、目标识别[4]、图像检索[5-6]、视频质量评估[7]、视频压缩[8]、图像自动裁剪[9-10]和目标跟踪[11-12]等领域.随着3D显示技术的发展与设备的成熟, 显著性检测应用到3D图像和视频中[13], 例如3D视频目标重定位(Retargeting)[14], 3D视频质量评估[15-16]和3D超声波图像处理[17-18]等.

    基于视觉注意机制的RGB图像显著性检测模型采用低层(包括亮度、颜色、方向和纹理等[19-20])特征对比计算得到显著性, 其中包括全局特征对比计算模型[21]、局部特征对比计算模型[22]以及结合全局特征和局部特征对比计算模型[23].

    为了提高检测的准确率, 结合先验知识作为高层特征的显著性检测模型被提出来[24-25], 其中包括位置先验[26-27]、背景先验[28-29]、颜色先验[30]、形状先验[31]和边界先验[32]等.针对2D图像背景复杂的显著性检测情况, 存在显著性区域相对背景区域没有明显的低层特征差异, 或者显著性区域分布情况与先验知识不符等难题.随着深度学习在目标检测领域成功应用, 将目标类别特征引入显著性检测[33-34], 解决2D图像颜色等低层特征不显著等问题. Zhao等[33]和Li等[34]引入深度学习方法, 提出基于类别对比差异来进行显著性检测方法, 即采用高层类别特征(High-level category feature)计算显著性. Zhao等利用深层卷积神经网络(Convolutional neural network, CNN)提取全局和局部上下文语义特征建模显著性计算[33]. Li等采用深层卷积神经网络提取多尺度分割得到图像超像素的深层对比特征(Deep contrast feature), 同时融合低层特征得到2D显著性[34].

    然而, 大多数基于人类视觉注意机制的2D图像显著性检测模型忽略了一个事实, 即人类视觉注意机制是作用于实际3D场景.观察由3D图像建立的人眼注视集(Eye fixation data)中, 发现其深度信息提供RGB图像额外重要的显著性检测信息[35-36]. Desingh等探讨了基于深度表征(Appearance)、深度引起的模糊化(Depth-induced blur)及深度中心偏置(Centre-bias)的3D显著性检测方法[36]. Niu等[37]和Ju等[38]提出利用深度信息进行3D显著性检测. Niu等基于视差对比及立体摄影专业领域知识进行深度显著性检测[37], Ju等提出基于Depth图像的各向异性中心-周围差分法的深度显著性检测模型[38].进一步, Lang等[35]和Ren等[39]分别提出结合深度先验知识来进行复杂背景下RGB-D图像显著性检测, 均说明深度信息在3D显著性检测的有效性.

    综上所述, RGB-D图像相比RGB图像增加了Depth图像, 所以基于RGB-D图像的显著性计算模型中必须考虑Depth图像对显著性的影响.因此, 在RGB-D图像显著性检测过程中存在两个重要的挑战, 即如何计算Depth图像的显著性以及如何与RGB图像的显著性融合得到最终的3D显著性.

    本文提出一种新的RGB-D图像显著性检测方法: 1)利用监督迁移方法将提取RGB图像的显著特征的Clarifai深层卷积神经网络应用到提取Depth图像的显著特征; 2)假定RGB图像的显著特征和Depth图像的显著特征在给定显著性类别下条件独立分布, 在贝叶斯框架下进行显著特征融合计算最终的3D显著性.在公开数据集NLPR[40]和NJU-DS2000[38]与现有基于边界先验的流行排序2D显著性检测方法GMR[32], 基于深度学习的2D显著性检测方法[33-34], 基于Depth图像深度对比特征的显著性检测方法[38]以及基于深度显著图融合的3D显著性检测方法[39-40]比较的实验结果显示, 提出的方法具有更好的准确率和召回率.

    本文的内容组织如下:第1节主要介绍RGB-D图像显著性检测方法及存在的问题; 第2节引入了深度学习方法提取RGB-D图像显著特征, 主要描述基于Clarifai深层卷积神经网络提取RGB图像和Depth图像显著特征的过程; 第3节详细阐述基于贝叶斯框架下融合颜色显著特征和深度显著特征的RGB-D图像显著性检测方法; 第4节介绍实验设计, 重点分析提出的方法与现有方法的对比实验结果; 第5节对文章进行总结, 并提出未来研究方向.

    • 根据融合深度信息不同的策略, 将RGB-D图像显著性检测方法分为如下三类, 如图 1所示.这些模型的区别在于是否进行深度显著性的计算以及融合深度信息的方式.深度特征融合模型不进行深度显著性计算, 直接将Depth图像特征与RGB图像显著特征进行加权融合; 深度显著图融合模型进行深度显著性计算得到深度显著图, 然后将深度显著图与2D显著图进行融合; 基于机器学习框架融合模型进行深度显著性计算, 将深度显著图(特征)与2D显著图(特征)进行训练得到模型.

      图  1  RGB-D图像显著性检测方法分类

      Figure 1.  Methodologies of the RGB-D saliency detection

      1) 深度特征融合模型

      这类模型将Depth图像深度特征和RGB图像显著特征进行融合, 用深度特征加权由RGB图像得到的2D显著特征来计算RGB-D图像显著性[41-44]. Fang等提出一种新的3D显著性检测方法, 该框架采用自适应权重系数线性融合颜色特征、亮度特征、纹理特征和深度对比特征得到3D显著性[41]. Ciptadi等提出利用深度测量得到的3D布局和形状特征融合的3D显著性检测方法[42]. Wu等计算RGB-D图像的颜色对比特征和深度对比特征来构造多特征融合方法, 并通过多尺度增强来提高3D显著性检测的准确率[43]. Iatsun等提出将2D显著特征与深度特征融合的3D显著性方法, 其中深度特征由二叉分割树(Binary partition tree)构造[44].深度特征融合模型通过深度特征与RGB图像显著特征加权计算3D显著性, 该模型把深度特征作为权重系数加入到原有2D显著特征.因为该模型没有计算深度显著性过程, 具有计算复杂度低、易于与2D显著性检测模型融合等优点.

      2) 深度显著图(Depth saliency maps)融合模型

      这类模型通过Depth图像显著性计算得到深度显著图, 然后与RGB图像显著性计算得到2D显著图进行融合得到3D显著性[40, 45-47]. Ouerhani等将场景深度显著性融合到视觉注意模型中, 由深度特征得到显著图线性加权到2D显著图中[45]. Xue等提出通过流行排序算法分别得到RGB图像的显著图和Depth图像的显著图, 然后进行显著图融合实现3D显著目标检测[46]. Peng等提出一个简单的融合RGB图像显著图和Depth图像显著图的RGB-D图像显著性检测框架, 其中RGB图像显著图检测模型采用已有2D显著性检测模型, Depth图像显著图基于多种深度上下文对比特征计算得到[40]. Wang等提出直接线性加权融合2D显著图和深度显著图的3D视觉注意模型, 其中深度显著图基于贝叶斯方法由合成激励的跟踪实验人眼移动数据得到[47].这类融合模型首先根据Depth图像得到深度显著图, 然后与2D显著图采用不同的决策策略(Pooling strategy)得到3D显著图.因为通过不同方法提取深度特征进行深度显著性计算, 有效利用3D场景中深度信息弥补基于RGB图像的2D显著性检测的局限.

      3) 基于机器学习(Learning-based)框架融合模型-这类模型采用机器学习技术融合RGB图像显著特征和Depth图像显著特征进行RGB-D图像显著性检测[48-52]. Iatsun等提出基于人工神经网络来训练RGB-D图像显著性检测模型, 其中网络参数定义为融合RGB图像显著特征和Depth图像显著特征的自适应参数[48].受到机器学习方法在2D显著性检测成功应用的启发, Fang等提出采用线性支持向量机(Linear SVM)融合RGB图像和Depth图像显著特征的RGB-D图像显著性检测方法[49]. Bertasius等提出EgoObject表示法, 对RGB-D图像中提取的形状特征、位置特征、尺度特征和深度特征进行编码, 最后训练随机森林回归算子进行3D显著性目标检测[50].随着深度学习用于2D显著性检测, Qu等提出采用深层卷积神经网络融合低层显著特征得到分层特征(Hierarchical features)进行RGB-D图像显著性目标检测[52].基于机器学习框架融合模型能够自动选取RGB-D图像显著特征进行显著性检测, 但是也存在模型训练过程中参数选取、模型收敛等问题.

      综上所述, 上述三类RGB-D图像显著性检测模型在融合深度特征时, 没有考虑3D显著性在RGB图像和Depth图像分布情况, 而直接将Depth图像深度特征与RGB图像颜色特征进行融合. 3D显著性检测模型不同于传统2D显著性检测模型的地方是增加评估深度特征对显著性检测的影响, 所以如何融合Depth图像的深度特征与RGB图像的颜色等特征得到3D显著性是研究的重点.

      下面我们将分析RGB-D图像显著性区域在RGB图像和Depth图像分布的情况. RGB-D图像显著性检测的结果由RGB图像和Depth图像共同决定, 选取RGB-D图像NLPR[40]数据集进行分析, 其中3D显著性在RGB图像和Depth图像分布关系如图 2所示.在RGB-D图像NLPR数据集中, Depth图像由Microsoft Kinect设备采集得到, 并且选取5名实验人员对实际场景环境下采集的RGB图像和Depth图像手工标记出显著性区域得到3D显著性区域. 3D显著性区域在RGB图像和Depth图像分布存在下面三种情况:

      图  2  3D显著性在RGB-D图像分布情况

      Figure 2.  3D saliency situation in RGB-D images

      情况1. 颜色-深度显著, 即3D显著性区域在RGB图像和Depth图像均是显著的, 定义该数据集为$ D^b = \{I^b_c, I^b_d \} $, 其中$ I^b_c $和$ I^b_d $分别表示该情况下的RGB图像和Depth图像.

      情况2. 颜色显著, 即3D显著性区域只在RGB图像是显著的, 而在Depth图像上是非显著的, 定义该数据集为$ D^c = \{I^c_c, I^c_d \} $, 其中$ I^c_c $和$ I^c_d $分别表示该情况下的RGB图像和Depth图像.

      情况3. 深度显著, 即3D显著性区域只在Depth图像是显著的, 而在RGB图像上是非显著的, 定义该数据集为$ D^d = \{I^d_c, I^d_d \} $, 其中$ I^d_c $和$ I^d_d $分别表示该情况下的RGB图像和Depth图像.

      表 1所示, 3D显著性在RGB图像和Depth图像三种情况图像数量分布比例.在RGB-D图像NLPR数据集中, 3D显著性区域大部分在RGB图像和Depth图像均是显著的, 即颜色-深度显著情况的图像比例达到76.7%, 远远高于颜色显著情况和深度显著情况的图像比例; 而颜色显著情况的图像比例高于深度显著情况的图像比例.对于RGB-D图像NJU-DS2000数据集具有相似的分布趋势.

      表 1  RGB-D图像数据集中3D显著性分布比例

      Table 1.  3D saliency situation on RGB-D image dataset

      数据集 颜色-深度显著 颜色显著 深度显著
      NLPR[40] 76.7% 20.8% 2.5%
      NJU-DS2000[38] 69.4% 16.6% 14.0%

      基于以上分析, 针对3D显著性分布的三种情况, 为了有效融合RGB图像颜色信息和Depth图像深度信息, 保留对3D显著性检测有用的颜色信息和深度信息, 抑制无用的颜色信息和深度信息的干扰, 获得比仅基于RGB图像颜色特征或者Depth图像深度特征更好的显著性检测结果, 提出一种基于贝叶斯框架融合的RGB-D图像显著性检测方法, 如图 3所示.本文提出的方法属于基于机器学习框架融合模型, 即采用贝叶斯框架融合RGB图像的颜色特征和Depth图像的深度特征, 基于生成模型进行学习得到RGB-D图像显著性分布.与深度显著图融合模型不同的是, 本文方法建立颜色与深度显著特征之间的分布, 利用了显著性分布关系; 而深度显著图融合模型在显著图进行融合, 只利用显著性值.与传统基于机器学习框架融合模型不同的是, 本文方法首先通过观察和分析3D显著性在RGB图像和Depth图像分布情况, 建立颜色显著特征和深度显著特征概率分布关系, 利用类条件互信息熵度量其相关性, 利用贝叶斯定理得到显著性的后验概率; 而传统基于机器学习框架融合模型主要采用判别方法进行显著性预测, 没有考虑显著性分布信息.本文提出的方法首先采用两个深层卷积神经网络分别提取RGB图像和Depth图像的显著特征, 其中提取RGB图像显著特征的深层卷积神经网络采用Clarifai网络[33].与文献[33]不同的是, 本文只提取RGB图像的全局上下文特征.提取Depth图像的深层卷积神经网络采用监督迁移(Supervision transfer)方法[53]得到, 通过Clarifi网络在NLPR数据集的3D显著性分布的颜色-深度显著情况的Depth图像$ \mathcal{I}^b_d $进行微调.然后计算颜色显著特征和深度显著特征的类条件互信息熵(Class-conditional mutual information, CMI), 假设当颜色显著特征和深度显著特征在小于给定CMI阈值时是条件分布独立的, 采用生成模型DMNB (Discriminative mixed-membership naive Bayes)[54]建模RGB-D图像显著性分布.最后将RGB-D显著性检测问题视为二分类的贝叶斯推理问题, 采用变分推理[55]计算后验概率进行预测.

      图  3  本文方法框图

      Figure 3.  Overview diagram of the proposed model

      图  4  RGB-D图像超像素分割(如RGB图像矩形框区域所显示, 兼顾颜色和深度信息超像素分割得到边缘比只考虑颜色信息要准确.同样情况, Depth图像矩形框区域显示兼顾颜色和深度信息超像素分割得到边缘比只考虑深度信息要准确)

      Figure 4.  Visual samples for superpixel segmentation of RGB-D images (Within the rectangle, the boundary between the foreground and the background segmented by the color and depth cues more accurate than color-based segmentation. Similarly, within the rectangle, the boundary between the foreground and the background segmented by the color and depth cues more accurate than depth-based segmentation)

    • 近年来, 因为深层卷积神经网络提取图像的高层类别特征有效克服复杂背景中显著性区域低层特征对比度不高的情况, 深层卷积神经网络方法被用于显著性检测[33-34].针对3D显著性在RGB图像和Depth图像三种不同分布情况, 采用两个不同的深层卷积神经网络分别单独提取RGB图像和Depth图像显著特征, 其中提取RGB图像的深层卷积神经网络采用Clarifai网络[33], 定义为$ \Upsilon $; 提取Depth图像的深层卷积神经网络定义为$ \Psi $, 采用监督迁移学习方法[53]得到.

    • 为了提高图像处理效率, 基于全局特征的显著性检测方法从基于像素为处理单位向基于超像素为处理单位转变.采用SLIC超像素分割算法[51]分别对RGB图像和Depth图像进行超像素分割时, 由于没有考虑颜色和深度的相互约束关系, 得到的超像素边界并不准确, 如图 5所示.所以, 对于RGB-D图像超像素分割需要同时考虑颜色信息和深度信息.在SLIC算法的基础上提出融合颜色信息和深度信息的超像素分割距离度量, 如下式所示:

      $$ \begin{align} D_s = \sqrt{d_{lab}^2+\frac{m}{S}d_{xy}^2+\omega_dd_d^2} \end{align} $$ (1)

      图  5  监督迁移学习过程示意图((a)提取Depth图像显著特征的深层卷积神经网络结构图.其中Relu层使用修正线性函数Relu$(x) = \max(x, 0)$保证输出不为负; Lrn表示局部响应归一化层; Dropout表示Dropout层, 在训练时以0.5比例忽略隐层节点防止过拟合. (b)基于深层卷积神经网络提取RGB图像和Depth图像显著特征流程图.首先图像被裁剪成尺寸为227$\times$227$\times$3作为深层卷积神经网络的输入, 在卷积层1通过96核的尺寸为7$\times$7步长为2滤波器卷积滤波, 得到卷积图像通过Relu函数, 再经过池化层1尺寸为3$\times$3步长为2的最大值池化成96个尺寸为55$\times$55的特征图, 最后对得到的特征图进行局部响应归一化.在卷积层2, 池化层2, 卷积层3, 卷积层4, 卷积层5和池化层5执行相似的处理.其池化层5输出作为全连接层6的输入, 经过全连接层7由输出层输出显著类别, 其中输出层采用softmax函数. (c)本文基于监督迁移学习的方法, 在RGB图像训练完成的Clarifai网络的基础上, 利用与RGB图像配对的Depth图像重新训练提取Depth图像显著特征的深层卷积神经网络)

      Figure 5.  Architecture for supervision transfer ((a) The Architecture of Depth CNN, where Relu denotes a rectified linear function Relu$(x) = \max(x, 0)$, which rectify the feature maps thus ensuring the feature maps are always positive, lrn denotes a local response normalization layer, and Dropout is used in the fully connected layers with a rate of 0.5 to prevent CNN from overfitting. (b) The flowchart of image processed based on Depth CNN. A 227 by 227 crop of an image (with 3 planes) is presented as the input. This is convolved with 96 different 1st layer filters, each of size 7 by 7, using a stride of 2 in both $x$ and $y$. The resulting feature maps are then: passed through a rectified linear fuction, pooled (max within 3 by 3 regions, using stride 2), and local response normalized across feature maps to give 96 different 55 by 55 element feature maps. Similar operations are repeated in layers 2, 3, 4, 5. The last two layers are fully connected, taking features from the pooling layer 5 as input in vector form. The final layer is a 2-way softmax function, which indicates the image is salient or not. (c) We train a CNN model for depth images by teaching the network to reproduce the mid-level semantic representation learned from RGB images for which there are paired images)

      其中, $ d_d = \sqrt{(d_j-d_i)^2} $表示Depth图像像素$ i $和$ j $的距离度量, $ d_{lab} $和$ d_{xy} $分别为原有SLIC算法颜色和位置的距离度量. $ \omega_d $和$ {m}/{S} $分别是深度信息和位置的权重, $ D_s $是RGB-D图像超像素分割的距离度量.

    • 在显著性检测数据集中, Depth图像数量远没有RGB图像那么多, 所以直接采用深层卷积神经网络对Depth图像进行训练提取显著性特征需要克服过拟合问题.在RGB-D图像NLPR数据集中, RGB图像和Depth图像是成对的, 并且RGB图像和Depth图像表示同一场景下两种不同的数据模式, 采用基于监督迁移学习方法利用在RGB图像训练得到的Clarifai网络在有限的Depth图像进行训练, 克服深层卷积神经网络由训练图像数量过少而导致过拟合问题.

      假设RGB图像显著性数据模式为$ M_s $, Depth图像显著性数据模式为$ M_d $.存在基于RGB图像训练得到的显著性检测$ K $层深层卷积神经网络结构为$ \Upsilon = \{\varphi^i_{M_s}, \forall i \in [1, \cdots, K]\} $, 基于Depth图像训练得到的显著性检测$ L $层深层卷积神经网络结构为$ \Psi = \{\psi^i_{M_d}, \forall i \in [1, \cdots, L]\} $.在子数据集$ D^b $中, 基于RGB图像训练得到的深层卷积神经网络监督迁移得到基于Depth图像训练得到的深层卷积神经网络过程如下式:

      $$ \begin{align} \min\limits_{W^{[1\cdots L]}_d} \sum\limits_{(I^b_d, I^b_c)\in D^b} f(\psi^L_{M_d}(I^b_d), \varphi^{i^*}_{M_s}(I^b_c)) \end{align} $$ (2)

      其中, $ W^{[1 \cdots L]}_d = \{ w^i_d, \forall i \in [1, \cdots, L] \} $是深层卷积神经网络$ \Psi $的参数; $ i^* $是深层卷积神经网络$ \Psi $的层数并且满足$ i^* \in [1, \cdots, K] $. $ f(\cdot) $表示损失函数, 本文采用欧式度量, 并且设定$ K $和$ L $相等, 如图 5所示.

    • 采用类条件互信息熵来分析深层卷积神经网络提取RGB图像和Depth图像显著特征的相关性.定义二值随机变量$ z_s $表示显著性类别, RGB图像显著特征$ \pmb{x}_c $和Depth图像显著特征$ \pmb{x}_d $的类条件互信息熵计算公式定义如下:

      $$ \begin{align} I(\pmb{x}_c, \pmb{x}_d|z_s) = H(\pmb{x}_c|z_s)+H(\pmb{x}_d|z_s)-H(\pmb{x}_c, \pmb{x}_d|z_s) \end{align} $$ (3)

      其中, $ H(\pmb{x}_c|z_s) $表示RGB图像显著特征$ \pmb{x}_c $的类条件熵, 定义为

      $$ \begin{align} -\sum\limits_{z_s} p(z_s)\sum\limits_{\pmb{x}_c}p(\pmb{x}_c|z_s)\log p(\pmb{x}_c|z_s) \end{align} $$ (4)

      $ H(\pmb{x}_d|z_s) $表示Depth图像显著特征$ \pmb{x}_d $的类条件熵, 定义为

      $$ \begin{align} -\sum\limits_{z_s} p(z_s)\sum\limits_{\pmb{x}_d}p(\pmb{x}_d|z_s)\log p(\pmb{x}_d|z_s) \end{align} $$ (5)

      $ H(\pmb{x}_c, \pmb{x}_d|z_s) $表示RGB图像和Depth图像显著特征的联合类条件熵, 定义为

      $$ \begin{align} -\sum\limits_{z_s} p(z_s)\sum\limits_{\pmb{x}_c, \pmb{x}_d}p(\pmb{x}_c, \pmb{x}_d|z_s)\log p(\pmb{x}_d, \pmb{x}_c|z_s) \end{align} $$ (6)

      RGB图像显著特征和Depth图像显著特征的类条件互信息熵值分布如图 6所示, 对于NLPR数据集, 3D显著性分布的颜色-深度显著情况、颜色显著情况和深度显著情况分别有80.1%、99.5%和84.0%的类条件互信息熵值分布在0.2以下; 对于NJU-DS2000数据集, 3D显著性分布的颜色-深度显著情况、颜色显著情况和深度显著情况分别有84.8%、96.5%和88.8%的类条件互信息熵值分布在0.2以下.对于3D显著性分布的颜色显著情况和深度显著情况, 因为3D显著性区域只在RGB图像或者Depth图像是显著的, 对应的类条件互信息熵值较小, 即RGB图像显著特征和Depth图像显著特征的相关性较低.而对于3D显著性分布的颜色-深度显著情况, 虽然3D显著性区域同时存在RGB图像和Depth图像, 但是大部分情况是RGB图像显著区域与Depth图像显著区域是互补关系, 即RGB图像显著区域与Depth图像显著区域部分重叠, 对应的类条件互信息熵值较小; 只有少部分情况是RGB图像显著区域与Depth图像显著区域完全重叠, 对应的CMI值较大.

      图  6  NLPR数据集和NJU-DS2000数据集RGB图像和Depth图像显著特征的类条件互信息熵分布图((a) NLPR数据集颜色-深度显著情况; (b) NLPR数据集颜色显著情况; (c) NLPR数据集深度显著情况; (d) NJU-DS2000数据集颜色-深度显著情况; (e) NJU-DS2000数据集颜色显著情况; (f) NJU-DS2000数据集深度显著情况)

      Figure 6.  Visual result for class-conditional mutual information between color and depth deep features on NLPR and NJU-DS2000 RGB-D image datasets ((a) Color-depth saliency situation in terms of the NLPR dataset, (b) Color saliency situation in terms of the NLPR dataset, (c) Depth saliency situation in terms of the NLPR dataset, (d) Color-depth saliency situation in terms of the NJU-DS2000 dataset, (e) Color saliency situation in terms of the NJU-DS2000 dataset, (f) Depth saliency situation in terms of the NJU-DS2000 dataset.)

    • 如第2.2节定义二值随机变量$ z_s $表示RGB-D图像超像素是否显著, 给定对应的RGB图像的显著特征$ \pmb{x}_c $和Depth图像的显著特征$ \pmb{x}_d $, 显著性检测可认为估计像素显著性后验概率的贝叶斯推理问题, 定义如下:

      $$ \begin{equation} {\rm P}(z_s|\pmb{x}_c, \pmb{x}_d) = \frac{{\rm P}(z_s, \pmb{x}_c, \pmb{x}_d)}{{\rm P}(\pmb{x}_c, \pmb{x}_d)} \end{equation} $$ (7)

      其中, $ {\rm P}(z_s|\pmb{x}_c, \pmb{x}_d) $表示RGB-D图像超像素是否显著性的概率, $ {\rm P}(\pmb{x}_c, \pmb{x}_d) $表示观察到的RGB图像和Depth图像显著特征概率分布, $ {\rm P}(z_s, \pmb{x}_c, \pmb{x}_d) $为隐藏类别变量$ z_s $和显著特征$ \pmb{x}_c, \pmb{x}_d $的联合概率分布, 定义为$ {\rm P}(z_s, \pmb{x}_c, \pmb{x}_d) = {\rm P}(z_s){\rm P}(\pmb{x}_c, \pmb{x}_d|z_s) $.

      计算RGB图像显著特征$ \pmb{x}_c $和Depth图像显著特征$ \pmb{x}_d $的类条件互信息熵值, 当给定显著类别$ z_s $下$ \pmb{x}_c $和$ \pmb{x}_d $相互独立分布时类条件互信息熵等于0;而当$ \pmb{x}_c $和$ \pmb{x}_d $是确定函数关系时类条件互信息熵值达到最大值1[56].采用类条件互信息熵阈值$ \tau $来量化显著性特征的相关性, 即当$ \pmb{x}_c $和$ \pmb{x}_d $的类条件互信息熵值小于阈值$ \tau $时, 认为给定显著类别变量$ z_s $下的$ \pmb{x}_c $和$ \pmb{x}_d $是条件独立分布的.在显著特征条件独立分布的情况下, $ {\rm P}(\pmb{x}_c, \pmb{x}_d|z_s) = {\rm P}(\pmb{x}_c|z_s){\rm P}(\pmb{x}_d|z_s) $, RGB-D图像显著性计算如下式:

      $$ \begin{align} {\rm P}(z_s|\pmb{x}_c, \pmb{x}_d)\propto {\rm P}(z_s){\rm P}(\pmb{x}_c|z_s){\rm P}(\pmb{x}_d|z_s) \end{align} $$ (8)
    • 假设RGB图像显著特征和Depth图像显著特征在给定显著类别下是条件独立分布的, 采用贝叶斯框架融合颜色显著特征和深度显著特征, 基于DMNB模型计算RGB-D图像显著性. DMNB模型是朴素贝叶斯(Navie Bayes)模型在以下两方面的扩展:

      1) 在朴素贝叶斯模型中, 所有特征共享一个分量(Component); 而在DMNB模型中, 每个特征有独立的分量, 并且这些分量分布服从狄利克雷(Dirichlet)-多项式先验分布.

      2) 在朴素贝叶斯模型中, 共享分量作为类别标签(Indicator); 而在DMNB模型中, 类别标签由混合隶属度(Mixed membership)逻辑回归产生.

      基于DMNB模型的显著性检测图模型如图 7所示, 其中假设RGB图像显著特征和Depth图像显著特征$ \pmb{X} = (\pmb{x}_c, \pmb{x}_d) $服从高斯分布以及标签$ \pmb{Y} $符合伯努利(Bernoulli)分布.在NLPR数据集中选取$ M $个RGB-D图像超像素特征$ \{(x_{ij})|i = 1, \cdots, M, j = 1, \cdots, N \} $和标签$ \{y_i|i = 1, \cdots, M\} $进行生成模型训练, 通过生成$ \{ \pmb{X}, \pmb{Y} \} $的概率最大来估计DMNB模型参数, 其中$ N $为显著特征维数.

      图  7  基于DMNB模型显著性检测的图模型($y$和$\pmb{x}$为可观测变量, $\pmb{z}$为隐藏变量.其中$\pmb{x}_{1:N} = (\pmb{x}_c, \pmb{x}_d)$表示RGB-D图像显著特征, 特征$\pmb{x}_j$服从$C$个均值为$\{\mu_{jk}|j = 1, \cdots, N\}$和方差为$\{\sigma_{jk}^2|j = 1, \cdots, N\}$高斯分布. $y$是标识超像素是否显著的标签, 取值1或者0, 其中1表示显著, 0表示非显著)

      Figure 7.  Graphical models of DMNB for saliency estimation ($y$ and $\pmb{x}$ are the corresponding observed states, and $\pmb{z}$ is the hidden variable, where each feature $\pmb{x}_j$ is assumed to have been generated from one of $C$ Gaussian distribution with a mean of $\{\mu_{jk}|j = 1, \cdots, N\}$ and a variance of $\{\sigma_{jk}^2|j = 1, \cdots, N\}$, $y$ is either 1 or 0 that indicates whether the pixel is salient or not.)

      基于DMNB模型显著性检测的生成过程如算法1所示, 其中$ p(\cdot |\alpha) $表示参数为$ \alpha $的狄利克雷分布, $ p(\cdot |\theta) $表示参数为$ \theta $的多项式分布, $ p(\pmb{x}_j|\pmb{z}_j, \Omega_j) $表示给定隐藏类别$ \pmb{z}_j $参数为$ \Omega_j $的高斯分布, $ p(y|\pmb{z}_j, \eta) $为给定隐藏类别$ \pmb{z}_j $参数为$ \eta $的伯努利分布. $ (\pmb{x}_{1:N}, y) $的边缘分布如下:

      $$ \begin{align} p(&\pmb{x}_{1:N}, y|\alpha, \Omega, \eta) = &\\ &\int p(\theta|\alpha)\prod\limits_{j = 1}^N\sum\limits_{\pmb{z}_j} P(\pmb{z}_j|\theta)p(\pmb{x}_j|\pmb{z}_j, \Omega_j)p(y|\pmb{z}_j, \eta)\rm{d}\theta& \end{align} $$ (9)

      其中, $ \theta $是$ C $分量的先验分布, $ \Omega = \{(\mu_{jk}, \sigma_{jk}^2)|j = 1, \cdots, N, k = 1, \cdots, C\} $, $ p(\pmb{x}_j|\pmb{z}_j, \Omega_j): = \mathcal{N}(\pmb{x}_j|\mu_{jk}, \sigma_{jk}^2) $, $ p(y|\pmb{z}_j, \eta): = Bern(y|\eta) $.由于式(9)中存在隐藏变量$ \pmb{z} $而无法直接计算其概率, 采用变分推理的方法进行求解.

      算法 1. 基于DMNB模型的显著性检测生成过程

      输入: $ C $.

      初始化: $ \alpha, \eta $.

      抽取分量比例: $ \theta\thicksim p(\theta|\alpha) $

      对于特征:

      选择一个分量$ \pmb{z}_j \thicksim p(\pmb{z}_j|\theta) $;

      选择一个特征值$ \pmb{x}_j\thicksim p(\pmb{x}_j|\pmb{z}_j, \Omega_j) $.

      抽取标签: $ y \thicksim p(y|\pmb{z}_j, \eta) $;

      输出:联合概率分布$ p(\pmb{x}_{1:N}, y|\alpha, \Omega, \eta) $.

    • 为了求解$ \log p(y, \pmb{x}_{1:N}|\alpha, \Omega, \eta) $的下界, 引进变分分布$ q(\pmb{z}_{1:N}, \theta|\gamma, \phi) $来近似含有隐藏变量的真值后验分布$ p(\pmb{z}_{1:N}, \theta|\alpha, \Omega, \eta) $.直接应用Jensen$ ' $s不等式[57], $ \log p(y, \pmb{x}_{1:N}|\alpha, \Omega, \eta) $的下界:

      $$ \begin{align} \log p(y, \pmb{x}_{1:N}|&\alpha, \Omega, \eta)\geq\mathit{\boldsymbol{H}}(q(\pmb{z}_{1:N}, \theta|\gamma, \phi))+&\\ &{\rm E}_q(\log p(y, \pmb{x}_{1:N}, \pmb{z}_{1:N}|\alpha, \Omega, \eta))& \end{align} $$ (10)

      注意到$ \pmb{x}_{1:N} $和$ y $在给定$ \pmb{z}_{1:N} $是条件独立的, 得到变分分布如下:

      $$ \begin{equation} q(\pmb{z}_{1:N}, \theta|\gamma, \phi) = q(\theta|\gamma)\prod\limits_{j = 1}^Nq(\pmb{z}_j|\phi) \end{equation} $$ (11)

      其中, $ q(\theta| \gamma) $是$ C $维$ \theta $的狄利克雷分布, $ q(\pmb{z}_j|\phi) $是$ \pmb{z}_j $的多项式分布.采用$ \mathcal{L} $表示下界函数, 如式(12)所示:

      $$ \begin{align} \mathcal{L} = &{\rm E}_q[\log p(\theta|\alpha)]+{\rm E}_q[\log p(\pmb{z}_{1:N}|\theta)]+&\\ &{\rm E}_q[\log p(\pmb{x}_{1:N}|\pmb{z}_{1:N}, \gamma)]-{\rm E}_q[\log q(\theta)]-&\\ &{\rm E}_q[\log q(\pmb{z}_{1:N})]+{\rm E}_q[\log p(y|\pmb{z}_{1:N}, \eta)]& \end{align} $$ (12)

      其中, $ \xi > 0 $是新引入的变分参数, 如式(13)所示:

      $$ \begin{align} {\rm E}_q[\log p(y|\pmb{z}_{1:N}, \eta)]\geq\sum\limits_{k = 1}^C\phi_k(\eta_ky-\\\frac{e^{\eta_k}}{\xi})-\frac{1}{\xi}-\log\xi \end{align} $$ (13)

      根据变分参数$ \gamma_k $, $ \phi_k $和$ \xi $最大化下界函数$ \mathcal{L}(\gamma_k, \phi_k, \xi; \alpha, \Omega, \eta) $得到参数更新如式(14), 式(15)和式(16)所示:

      $$ \begin{align} \phi_k\propto {\rm e}^{\Psi(\gamma_k)-\Psi\left(\sum\limits_{l = 1}^C\gamma_l\right)+\frac{\eta_ky_i-\frac{e^{\eta_k}}{\xi}-\sum\limits_{j = 1}^N\frac{(\pmb{x}_{ij}-\mu_{jk})^2}{2\sigma_{jk}^2}}{N}} \end{align} $$ (14)
      $$ \begin{equation} \gamma_k = \alpha + N\phi_k \end{equation} $$ (15)
      $$ \begin{equation} \xi = 1+\sum\limits_{k = 1}^C\phi_{k}\rm{e}^{\eta_k} \end{equation} $$ (16)

      在变分推理优化对数似然函数的下界过程中, 使累积下界$ \sum\nolimits_{i = 1}^M\mathcal{L}(\gamma^*, \phi^*, \xi^*, \alpha, \Omega, \eta) $在所有训练数据$ (\pmb{x}_i, y_i) $最大, 由变分参数$ (\gamma^*, \phi^*, \xi^*) $来产生估计参数$ \mu $, $ \sigma $和$ \eta $, 如式(17), 式(18)和式(19)所示:

      $$ \begin{equation} \mu_{jk} = \frac{\sum\limits_{i = 1}^M\phi_{ik}{x}_{ij}}{\sum\limits_{i = 1}^M\phi_{ik}} \end{equation} $$ (17)
      $$ \begin{equation} \sigma_{jk} = \frac{\sum\limits_{i = 1}^M\phi_{ik}({x}_{ij}-\mu_{jk})^2}{\sum\limits_{i = 1}^M\phi_{ik}} \end{equation} $$ (18)
      $$ \begin{equation} \eta_k = \log\left(\frac{\sum\limits_{i = 1}^M\phi_{ik}y_i}{\sum\limits_{i = 1}^M\frac{\phi_{ik}}{\xi_i}}\right) \end{equation} $$ (19)
      $$ \begin{align} &(\gamma_i^{m}, \phi_i^{m}, \xi_i^{m}) = \\ &\qquad \arg \max\mathcal{L}(\gamma_i, \phi_i, \xi_i;\alpha^{m-1}, \Omega^{m-1}, \eta^{m-1}) \end{align} $$ (20)
      $$ \begin{align} &(\alpha^{m}, \Omega^{m}, \eta^{m}) = \\ &\qquad \arg \max\limits_{(\alpha, \Omega, \eta)}\sum\limits_{i = 1}^N \mathcal{L}(\gamma_i^{m}, \phi_i^{m}, \xi_i^{m};\alpha, \Omega, \eta) \end{align} $$ (21)

      基于变分推理和参数估计更新公式, 直接构造变分期望最大算法估计参数$ \alpha $, $ \Omega $和$ \eta $, 如算法2所示.

      算法 2. 基于DMNB模型显著性建模的变分期望最大求解算法

      输入:收敛阈值$ \varepsilon_{\mathcal{L}} $.

      初始化: $ \alpha^0 $, $ \Omega^0 $, $ \eta^0 $.

      计算期望:在训练数据集基于参数$ (\alpha^{m-1}, \Omega^{m-1}, \eta^{m-1}) $下根据式(20)计算最优变分参数, 并计算$ \log p(y_i, \pmb{x}_{1:N}|\alpha, \Omega, \eta) $的下限$ \mathcal{L}(\gamma_i^{m}, \phi_i^{m}, \xi_i^{m}; \alpha, \Omega, \eta) $.

      最大化过程:根据式(21)更新DMNB模型参数$ (\alpha, \Omega, \eta) $, 计算逼近下限

      $ \mathcal{L}^{m} = \sum\limits_{i = 1}^N\mathcal{L}(\gamma_i^{m}, \phi_i^{m}, \xi_i^{m}; \alpha^{m}, \Omega^{m}, \eta^{m}) $,

      $ \mathcal{L}^{m+1} = \sum\limits_{i = 1}^N\mathcal{L}(\gamma_i^{m+1}, \phi_i^{m+1}, \xi_i^{m+1};\alpha^{m+1}, \Omega^{m+1}, \eta^{m+1}) $,

      UNTIL $ \mathcal{L}^{m}-\mathcal{L}^{m+1}\leq\varepsilon_{\mathcal{L}} $.

      输出: $ \alpha $, $ \Omega $, $ \eta $.

      通过变分期望最大算法得到DMNB模型参数后, 基于参数$ \eta $给定特征$ \pmb{x}_{1:N} $进行显著性预测, 如式(22)所示:

      $$ \begin{align} {\rm E}&[\log p(y|\pmb{x}_{1:N}, \alpha, \Omega, \eta)] = \\ &\begin{cases} \eta^{\rm T}{\rm E}[\overline{\pmb{z}}]-{\rm E}[\log(1+{\rm e}^{\eta^{\rm T}\overline{\pmb{z}}})], &{y = 1}\\ 0-{\rm E}[\log(1+{\rm e}^{\eta^{\rm T}\overline{\pmb{z}}})], &{y = 0} \end{cases} \end{align} $$ (22)

      其中, $ \overline{\pmb{z}} $为所有观察到特征值的$ \pmb{z}_{1:N} $的均值.由于无法直接计算$ {\rm E}[\overline{\pmb{z}}] $值, 引入分布$ q(\pmb{z}_{1:N}, \theta) $并且计算$ {\rm E}_q[\overline{\pmb{z}}] $作为$ {\rm E}[\overline{\pmb{z}}] $的近似.在实际求解中, $ {\rm E}_q[\overline{\pmb{z}}] = \phi $, 因此式(22)求解只需比较$ \eta^{\rm T}\phi $和0.

    • 本文涉及的参数如表 2所示, 本节主要讨论如何确定类条件互信息熵阈值参数$ \tau $和DMNB模型混合分量参数$ C $.

      表 2  参数表

      Table 2.  Summary of parameters

      变量名 取值范围 参数描述
      $\tau$ (0, 1) 类条件互信息熵阈值
      $\alpha$ (0, 20) 狄利克雷分布参数
      $\theta$ (0, 1) 多项式分布参数
      $\eta$ (-10.0, 3.0) 伯努利分布参数
      $\Omega$ ((0, 1), (0, 0.2)) 高斯分布参数
      $N$ $> 2$ 特征维度
      $C$ $> 2$ DMNB模型分量参数
      $\varepsilon_\mathcal{L}$ (0, 1) EM收敛阈值

      在训练DMNB模型时, 为了满足条件独立的假设, 我们选取数据集中RGB图像显著特征和Depth图像显著特征的类条件互信息熵值小于$ \tau $作为训练样本, 而对于类条件互信息熵阈值参数选取决定训练样本的数量.通过第2.3节分析, 对于NLPR数据集有84.3%的RGB图像和Depth图像的类条件互信息熵值小于0.2, 对于NJU-DS2000数据集有87.3%的RGB图像和Depth图像的类条件互信息熵值小于0.2.选择$ \tau = 0.2 $, 选取数据集中样本的80%且类条件互信息熵值小于$ \tau $用于训练, 剩余20%的样本用于测试.

      对于算法1中DMNB模型分量参数$ C $的选择, 可通过狄利克雷过程混合模型(Dirichlet process mixture model, DPMM)[55]基于训练样本找到合适的数值. DPMM通过混合分量数值随着训练集增加而增长, 提供一个非参数的混合模型参数的先验值, 如图 8所示.通过观察图 8(b)图 8(d), 通过狄利克雷过程混合模型算法得到参数$ C $分别为24和28, 表示NJU-DS2000数据集比NLPR数据集更复杂.

      图  8  对比基于生成聚类和狄利克雷过程聚类方法确定DMNB模型混合分量参数$C$ ((a)针对NLPR数据集显著特征生成聚类图. (b)针对NLPR数据集基于狄利克雷过程的显著特征聚类图, 其中不同图例的数目代表DMNB模型混合分量参数$C$.对于NLPR数据集, 得到$C = 24$. (c)针对NJU-DS2000数据集显著性特征生成聚类图. (d)针对NJU-DS2000数据集基于狄利克雷过程的显著特征聚类图, 其中不同图例的数目代表DMNB模型混合分量参数$C$.对于NJU-DS2000数据集, 得到$C = 28$)

      Figure 8.  Visual result for the number of components $C$ in the DMNB model: generative clusters vs DPMM clustering ((a) Generative clusters for NLPR RGB-D image dataset. (b) DPMM clustering for NLPR RGB-D image dataset, where the number of colors and shapes of the points denote the number of components $C$. We find $C = 24$ using DPMM on the NLPR dataset. (c) Generative clusters for NJU-DS2000 RGB-D image dataset. (d) DPMM clustering for NJU-DS2000 RGB-D image dataset, where the number of colors and shapes of the points denote the number of components $C$. We find $C = 28$ using DPMM on the NJU-DS2000 dataset.)

      使用交叉认证方法来验证参数$ C $, 给定一个由狄利克雷过程混合模型得到的参数$ C $的取值范围, 选取NLPR数据集训练样本的90%作为训练集, 选取训练样本的10%作为验证集, 结果如图 9所示.复杂度(Perplexity)定义为Perplexity $ = \exp (-\sum\nolimits_{i = 1}^n \frac{\log p(\pmb{x}_i)}{n}) $, 其值越小表示DMNB生成模型描述数据能力越好, 其中$ n $为训练集和测试集中选取特征$ \pmb{x}_i $的数量.对于生成模型DMNB, 较大的参数$ C $更易在训练集得到较低的Perplexity值, 因为较大的参数$ C $增加了模型的复杂度来拟合训练集.然而, 模型的复杂度会降低泛化的能力而在测试集得到较高的Perplexity值.在下面对比实验中, 选取$ C = 24 $, 对于NLPR数据集和NJU-DS2000数据集DMNB模型分别进行学习和测试.

      图  9  对于NLPR数据集交叉验证DMNB模型混合分量参数$C$, 给定一个由DPMM模型得到的参数$C$的取值范围, 采用10-fold进行交叉验证

      Figure 9.  Cross validation for the parameter $C$ in the DMNB model in terms of NLPR dataset, we use 10-fold cross-validation with the parameter $C$ for DMNB models, the $C$ found using DPMM was adjusted over a wide range in a 10-fold cross-validation

      DMNB模型由$ M $个RGB-D图像超像素进行训练[58], 其超像素分割参数为$ S = 40 $, $ m = 20 $和$ \omega_d = 1.0 $.其超像素显著特征由RGB图像深层卷积神经网络和Depth图像深层卷积神经网络的倒数第二层输出, 超像素显著特征维数$ N = 8192 $.对于算法1中参数$ \Omega $由训练数据的均值和方差初始化, 并且初始化参数$ \alpha = {M_c}/{M} $, 其中$ M_c $为训练集中分量$ c $的特征数量.最后, 设置算法2中参数$ \varepsilon_{\mathcal{L}} = 0.001 $进行DMNB模型参数求解.

    • 本文提出的方法均以BFSD (Saliency detection based on Bayesian fusion)简称, 采用Matlab 7.12实现算法, 并在Intel Core (TM) i5-6400 CPU, 8GB内存PC机上完成所有实验.将所提出的方法与6种sate-of-the-art显著性检测方法进行比较, 其中包括基于图像边界先验知识的流形排序2D显著性检测方法GMR[32], 基于深层卷积神经网络提取全局和局部特征的2D显著性检测方法MC[33], 基于深层卷积神经网络提取多尺度局部特征的2D显著性检测方法MDF[34], 基于Depth图像深度对比特征的显著性检测方法ACSD[38], 基于2D显著图与深度显著图融合的3D显著性检测方法LMH[40]以及融合深度先验的3D显著性检测方法GP[39].这些方法的显著性结果均通过运行原作者公开的源代码得到.

    • 在本节中, 我们选取NLPR数据集和NJU-DS2000数据集进行对比实验, 如表 3所示. NLPR数据集通过Kinect设备采集不同真实场景下的1000张3D图片, 分别存储成RGB图像、Depth图像和真值图像(Ground truth, GT), 其中真值图像由5位参与者选出引人注意的显著物体区域得到, 即手工标记出显著的区域为255, 非显著区域为0.该数据集由Peng等[40]提供, 以便客观地评估3D显著性检测模型的性能1. NJU-DS2000数据集采用双目视觉方法得到不同场景下的2000张3D图片, 其中真值图像由4名自愿者手工标定.与NLPR数据集不同的是, 其Depth图像由两个视角的RGB图像通过立体匹配得到[59].该数据集由Ju等[38]提供, 在NJU-DS400数据集基础上进行扩充2.

      1 http://sites.google.com/site/rgbdsaliency

      2 http://mcg.nju.edu.cn/en/resource.html

      表 3  NLPR数据集和NJU-DS2000数据集分布情况

      Table 3.  The benchmark and existing 3D saliency detection dataset

      数据集 图片数 显著目标数 场景种类 中央偏置
      NLPR 1000 (大多数)一个 11
      NJU-DS2000 2000 (大多数)一个 $>$ 20

      目前为止, 还没有特定的标准来评价3D显著性检测方法的性能指标.然而, 对于2D情况下有不同指标应用于评价显著性检测方法的性能.引入两种评价标准来评估3D显著性检测方法的性能:第一种是F测度(F-measure), 第二种是ROC (Receiver operating characteristic)曲线.

      F测度是一种通过加权准确率(Precision)和召回率(Recall)的整体性能评价标准, 定义如下:

      $$ \begin{equation} F_\beta = \frac{(1+\beta^2){\rm Precision}\times {\rm Recall}}{\beta^2{\rm Precision}+{\rm Recall}} \end{equation} $$ (23)

      准确率是检测到且属于真值图像的部分所占检测到所有部分的比例, 召回率是检测到且属于真值图像的部分占真值图像的比例.为了强调在显著性检测中准确率相对召回率的重要性, 将$ \beta^2 $设置为0.3, 同文献[32]一致.

      计算F测度时, 选取显著图平均值的2倍作为动态阈值, 定义如下:

      $$ \begin{equation} T = \frac{2}{W\times H}\sum\limits_{i = 1}^W\sum\limits_{j = 1}^HS(i, j) \end{equation} $$ (24)

      其中, $ W $和$ H $分别表示图像的宽度和高度, $ S(i, j) $是$ (i, j) $位置处像素点的显著性值.

      第二种评价标准是ROC (Receiver operating characteristic)曲线和AUC (The area under the ROC curve)值. ROC曲线是一种分析决策性能的定量方法, 用来评价显著性检测结果是否与真实值图像一致性.将算法得到显著性图归一化为$ [0, 255] $的范围, 然后选取阈值从0到255依次变化分割显著图得到二值图像.同时将真值图像二值化, 其中显著区域像素值为255, 非显著区域像素值为0.最后参照真值图像计算真正率(True positive rate)和假正率(False positive rate)绘制ROC曲线. AUC值为ROC曲线下的面积, 其AUC值越大表示算法性能越好.

    • 表 4给出本文提出的方法BFSD与GMR、MC、MDF、ACSD、LMH和GP 6种方法在NLPR数据集上处理一幅RGB-D图像的平均运行时间的对比, 其中2D显著性检测方法GMR、MC和MDF只处理RGB图像得到显著图, ACSD显著性检测方法只处理Depth图像得到显著图, BFSD和3D显著性检测方法LMH、GP同时处理RGB图像和Depth图像得到显著图.由于实验PC机没有GPU卡进行加速, 基于深层卷积神经网络提取显著特征的方法MC、MDF和BFSD运行时间均较长, 其中MDF运行时间最长是因为采用多尺度超像素分割进行显著性检测, 以不同尺度下得到的超像素为中心生成3个不同尺寸的矩形框区域由深层卷积神经网络提取特征, 最后将不同尺度下得到的显著图经过条件随机场(Conditional random field)框架进行显著图融合.而ACSD运行时间最短是因为该算法只处理Depth图像, 通过SLIC超像素分割算法[51]得到超像素区域, 计算超像素的各向异性-周边差异进行显著性检测.运行时间最长的MDF方法与运行时间最短的ACSD方法处理时间的差异在于三个方面的原因:第一个原因是MDF方法是基于多尺度超像素分割, 而ACSD是单尺度超像素分割; 第二个原因是MDF方法基于深层卷积神经网络提取显著特征, 即以不同尺度下得到的超像素为中心生成3个尺寸的矩形区域采用深层卷积神经网络提取特征, 而ACSD方法采用超像素的各向异性-周边差异进行显著特征提取; 第三个原因是MDF方法采用条件随机场对不同尺度得到的显著图进行融合, 而ACSD方法不需要融合.其中最耗费时的是采用深层卷积神经网络提取特征的部分, 因为实验机器没有GPU卡而通过CPU模式运行深层卷积神经网络.未来采用GPU卡运行深层卷积神经网络提取特征, MDF方法运行时间会大幅降低, 也包括本文提出的方法BFSD.

      表 4  NLPR数据集处理一幅RGB-D图像平均时间比较

      Table 4.  Comparison of the average running time for per RGB-D image on the NLPR dataset

      数据集 GMR MC MDF ACSD LMH GP BFSD
      NLPR 2.9s 72.7s $942.3$s 0.2s 2.8s 38.9s 80.1s
    • 对于3D显著性分布的颜色-深度显著情况, 各显著性检测方法得到的显著图如图 10所示.对于颜色-深度显著的情况, 显著性区域在RGB图像和Depth图像均有分布, 采用融合RGB图像显著特征和Depth图像显著特征的方法LMH、GP利用Depth图像深度特征克服RGB图像背景的干扰, 如图 10第3行所示的黑色木雕.然而, RGB图像中存在显著区域与周围区域颜色等低层特征对比度不高的情况, 基于深层卷积神经网络的显著性检测方法MC、MDF提取的高层类别特征克服RGB图像显著区域颜色等低层特征对比度不高的情况, 如图 10第1行所示的白色"请勿泊车"的牌子与周围白色水泥路面.采用深层卷积神经网络提取Depth图像的高层类别特征, 在贝叶斯框架下与深层卷积神经网络提取RGB图像的高层类别特征融合, 能够克服3D显著性区域在RGB图像和Depth图像与周围区域低层特征对比度不高的情况, 如图 10第10行所示的花叶.

      图  10  NLPR数据集颜色-深度显著情况显著图对比. ((a) RGB图像; (b) Depth图像; (c)真值图; (d) ACSD方法; (e) GMR方法; (f) MC方法; (g) MDF方法; (h) LMH方法; (i) GP方法; (j)本文方法)

      Figure 10.  Visual comparison of the saliency detection in the color-depth saliency situation in terms of NLPR dataset ((a) RGB image, (b) Depth image, (c) Ground truth, (d) ACSD, (e) GMR, (f) MC, (g) MDF, (h) LMH, (i) GP, (j) BFSD)

      图 11(a)图 12(a)所示, 本文提出的方法BFSD与GMR、MC、MDF、ACSD、LMH和GP 6种方法在NLPR数据集颜色-深度显著情况的ROC曲线、准确率、召回率和F测度对比.与图 10观察一致, 基于深层卷积神经网络的显著性检测方法MC、MDF优于基于低层特征的显著性检测方法GMR, 因为深层卷积神经网络提取RGB图像的高层特征含有的类别信息能够克服显著区域与周围背景区域低层特征对比度不高的情况.由于Depth图像深度低层特征的局限, 对于仅仅提取深度对比特征的显著性检测方法ACSD较其他显著性检测方法明显处于劣势.如图 12(a)所示, 融合深度先验的3D显著性检测方法GP优于基于边界先验显著性检测方法GMR, 而简单融合RGB图像显著图与Depth图像显著图的3D显著性检测方法LMH没有比GMR方法具有明显优势.采用深层卷积神经网络提取Depth图像的高层类别特征, 在贝叶斯框架下与深层卷积神经网络提取RGB图像的高层类别特征融合, 在检测准确率、召回率和F测度均优于其他6种方法.如图 11(a)所示, 由于颜色-深度显著情况下颜色显著特征与深度显著特征不是严格条件独立, 所以提出的方法与同样基于深层卷积神经网络提取显著特征的MC、MDF方法ROC曲线相近, 对应的AUC值比较如表 5第1行所示.

      图  11  NLPR数据集ROC曲线对比图

      Figure 11.  The ROC curves of different saliency detection models in terms of the NLPR dataset

      图  12  NLPR数据集F测度结果对比图

      Figure 12.  The F-measures of different saliency detection models when used on the NLPR dataset

      表 5  AUC值比较

      Table 5.  Comparison of the AUC on the NLPR dataset

      显著分布情况 ACSD GMR MC MDF LMH GP BFSD
      颜色-深度显著 0.61 0.73 0.81 0.82 0.70 0.79 0.83
      颜色显著 0.56 0.74 0.84 0.83 0.61 0.65 0.84
      深度显著 0.63 0.71 0.76 0.74 0.75 0.81 0.90
      总体 0.60 0.73 0.81 0.80 0.69 0.78 0.85
    • 对于3D显著性分布的颜色显著情况, 上述显著性检测方法得到的显著图如图 13所示.由于3D显著性区域只在RGB图像是显著的, 而在Depth图像是非显著的, 基于Depth图像深度特征的显著性检测方法ACSD[38]很难检测到正确的显著性区域, 如图 13第5行中的雕像; 基于简单融合RGB图像显著图和Depth图像显著图的3D显著性检测方法LMH受到深度显著图的干扰, 也很难检测到正确的显著性区域, 如图 13第2行中的球柱建筑.

      图  13  NLPR数据集颜色显著情况显著图对比((a) RGB图像; (b) Depth图像; (c)真值图; (d) ACSD方法; (e) GMR方法; (f) MC方法; (g) MDF方法; (h) LMH方法; (i) GP方法; (j)本文方法)

      Figure 13.  Visual comparison of the saliency detection in the color saliency situation in terms of NLPR dataset ((a) RGB image, (b) Depth image, (c) Ground truth, (d) ACSD, (e) GMR, (f) MC, (g) MDF, (h) LMH, (i) GP, (j) BFSD)

      图 11(b)所示, 对于3D显著性分布的颜色显著情况, 显著性区域只在RGB图像有分布, 而在Depth图像上是不显著的, 对于直接融合深度特征的3D显著性方法GP、LMH明显受到Depth图像显著性特征的干扰, 而基于RGB图像的显著性检测方法GMR、MC、MDF则没有什么影响, 其AUC值对比如表 5第2行所示.如图 11(b)所示, GP和LMH方法对于颜色显著情况检测的准确率、召回率和F测度指标都劣于颜色-深度显著的情况.分析深层卷积神经网络提取的RGB图像和Depth图像的显著特征的相关性, 采用基于贝叶斯框架进行颜色特征和深度特征的融合, 优于直接融合深度特征的策略.

    • 对于3D显著性分布的深度显著情况, 上述显著性检测方法得到的显著图如图 14所示.由于3D显著性区域在RGB图像是不显著的, 基于RGB图像2D显著性检测方法GMR、MC、MDF很难得到正确的显著性区域, 如图 14第2行所示黑色的鼎.基于边界先验的显著性检测方法GMR方法假设显著性区域绝大数分布在图像的中心位置, 而背景分布在图像的边缘, 所以很难处理显著性区域分布在图像边界的情况, 如图 10中第8行所示的白色石柱、如图 13中第5行所示的塑像、如图 14中第3行所示的石灯.由于3D显著性区域只在Depth图像是显著的, 直接融合RGB图像显著图和Depth图像显著图的3D显著性检测方法LMH和利用深度先验的3D显著性检测方法GP通过利用Depth图像深度特征能够有效减少RGB图像对3D显著性区域检测的干扰, 如图 14第4行的灯光和第5行的柜子.本文提出的方法BFSD考虑深层卷积神经网络提取的RGB图像和Depth图像显著性特征是条件独立分布的, 基于贝叶斯框架进行融合显著特征, 由生成模型建模3D显著性检测得到显著性区域, 如图 14第3行中的石灯.

      图  14  NLPR数据集深度显著情况显著图对比((a) RGB图像; (b) Depth图像; (c)真值图; (d) ACSD方法; (e) GMR方法; (f) MC方法; (g) MDF方法; (h) LMH方法; (i) GP方法; (j)本文方法)

      Figure 14.  Visual comparison of the saliency detection in the depth saliency situation in terms of NLPR dataset ((a) RGB image, (b) Depth image, (c) Ground truth, (d) ACSD, (e) GMR, (f) MC, (g) MDF, (h)LMH, (i) GP, (j) BFSD)

      图 11(c)所示, 对于3D显著性分布的深度显著情况, 显著性区域只在Depth图像是显著的, 而在RGB图像上是不显著的, 而融合深度特征的3D显著性检测方法GP和LMH利用Depth图像深度特征克服RGB图像不显著, 优于基于RGB图像的显著性检测方法GMR、MC和MDF, 其AUC值对比如表 5第3行所示.如图 12(c)所示, GMR、MC和MDF方法在深度显著情况的准确率、召回率和F测度指标劣于颜色-深度显著的情况, 而优于颜色显著的情况.与颜色显著情况相似, 在深度显著情况下, 深层卷积神经网络提取的RGB图像和Depth图像的显著特征是条件独立分布的, 基于贝叶斯框架进行颜色特征和深度特征的融合, 优于直接融合深度特征的策略.

      表 5给出本文提出的方法BFSD与GMR、MC、MDF、ACSD、LMH和GP 6种方法在NLPR数据集上的AUC值对比.基于深度特征的显著性检测方法ACSD在3D显著性分布深度显著情况得到比颜色-深度显著情况和颜色显著情况较高的AUC值, 但是总体比其他方法的AUC值较低, 仅仅基于Depth图像的深度特征的3D显著性检测无法得到较高的性能; 在3D显著性分布的深度显著情况, 融合深度特征的3D显著性检测方法LMH、GP和BFSD均比基于RGB图像显著特征的方法GMR、MC和MDF要好, 说明深度特征能够在RGB图像不显著时有助于3D显著性检测; 在3D显著性分布的颜色显著情况, 融合深度特征的3D显著性检测方法LMH、GP却比基于RGB图像显著性特征的方法GMR、MC和MDF要差, 说明在融合深度特征的时候也要考虑颜色特征和深度特征的分布关系.采用类条件互信息熵分析深层卷积神经网络提取的RGB图像和Depth图像显著特征的相关性, 假设条件独立下基于贝叶斯框架下进行特征融合, 在3D显著性分布的三种情况均得到较高的AUC值.

      图 12(d)所示, 本位提出的方法BFSD与GMR、MC、MDF、ACSD、LMH和GP 6种方法在整个NLPR数据集上的准确率、召回率和F测度的对比.对比不同的融合策略来融合RGB图像的颜色特征和Depth图像的深度特征发现, 采用相乘融合方法的3D显著性检测方法LMH与基于低层颜色特征2D显著性检测方法GMR有相近的F测度; 而采用融合深度先验的3D显著性检测方法GP得到比基于低层颜色特征2D显著性检测方法GMR更高的F测度.基于深层卷积神经网络的MC和MDF方法采用高层类别特征较基于融合低层颜色特征和深度特征的3D显著性检测方法LMH和GP有较高的准确率、召回率, 说明高层特征比低层特征有助于显著性检测; 采用深层卷积神经网络提取RGB图像和Depth图像高层显著特征, 在贝叶斯框架下进行融合, 在3D显著性分布的三种情况均得到较好的准确率、召回率和F测度.

    • NJU-DS2000数据集深度信息获取方式与NLPR数据集深度信息获取方式不同, 其中NLPR数据集深度信息由三维点云表示的绝对深度值, 而NJU-DS2000数据集深度信息是由视差图表示的相对深度值.由于LMH和GP方法针对NLPR数据集设计, 融合的深度显著性需要绝对深度值计算得到, 所以在NJU-DS2000数据集对比实验缺少LMH和GP方法的实验结果.

      本文提出的方法BFSD与GMR、MC、MDF和ACSD 4种方法在NJU-DS2000数据集的实验结果如图 15~图 19所示.图 15表示NJU-DS2000数据集颜色-深度显著情况下显著图对比, 在该情况下显著区域的颜色信息和深度信息存在互补的关系, 提出的方法BFSD通过融合颜色和深度信息相比只考虑颜色信息的GMR、MC和MDF方法和只考虑深度信息的ACSD方法得到更完整的显著图.如图 18(a)图 19(a)所示, BFSD得到的ROC曲线以及准确率、召回率和F测度均优于上述4种方法.

      图  15  NJU-DS2000数据集颜色-深度显著情况显著图对比((a) RGB图像; (b) Depth图像; (c)真值图; (d) ACSD方法; (e) GMR方法; (f) MC方法; (g) MDF方法; (h)本文方法)

      Figure 15.  Visual comparison of the saliency detection in the color-depth saliency situation in terms of NJU-DS2000 dataset ((a) RGB image, (b) Depth image, (c) Ground truth, (d) ACSD, (e) GMR, (f) MC, (g) MDF, (h) BFSD)

      图  16  NJU-DS2000数据集颜色显著情况显著图对比. ((a) RGB图像; (b) Depth图像; (c)真值图; (d) ACSD方法; (e) GMR方法; (f) MC方法; (g) MDF方法; (h)本文方法)

      Figure 16.  Visual comparison of the saliency detection in the color saliency situation in terms of NJU-DS2000 dataset ((a) RGB image, (b) Depth image, (c) Ground truth, (d) ACSD, (e) GMR, (f) MC, (g) MDF, (h) BFSD)

      图  17  NJU-DS2000数据集深度显著情况显著图对比((a) RGB图像; (b) Depth图像; (c)真值图; (d) ACSD方法; (e) GMR方法; (f) MC方法; (g) MDF方法; (h)本文方法)

      Figure 17.  Visual comparison of the saliency detection in the depth saliency situation in terms of NJU-DS2000 dataset ((a) RGB image; (b) Depth image; (c) Ground truth; (d) ACSD; (e) GMR; (f) MC; (g) MDF; (h) BFSD)

      图  18  NJU-DS2000数据集ROC对比图

      Figure 18.  The ROC curves of different saliency detection models in terms of the NJU-DS2000 dataset

      图  19  NJU-DS2000数据集F测度结果对比图

      Figure 19.  The F-measures of different saliency detection models when used on the NJU-DS2000 dataset

      图 16所示, NJU-DS2000数据集颜色显著情况下显著图检测结果对比.由于3D显著区域只在RGB图像是显著的, 而在Depth图像是不显著的, 只考虑深度信息进行显著性检测的ACSD方法较难得到准确的显著区域, 如图 18(b)所示, 基于颜色信息进行显著性检测的方法比ACSD方法均获得较好的ROC曲线.如图 19(b)所示, 基于颜色信息进行显著性检测方法中, 由于MC和MDF方法采用深层卷积神经网络提取高层类别特征得到比基于低层特征的GMR方法得到更高的召回率.

      图 17所示, NJU-DS2000数据集深度显著情况下显著图检测结果对比.在NJU-DS2000数据集深度显著情况下, 由于3D显著区域只在Depth图像是显著的, 而在RGB图像是不显著的, 只考虑颜色信息进行显著性检测的GMR、MC和MDF方法较难得到准确的显著区域.相比颜色显著情况, 基于低层特征的GMR方法检测准确率迅速降低, 如图 19(b)图 19(c)所示.而基于深度信息进行显著性检测的ACSD方法比基于颜色信息进行显著性检测的方法得到较高的召回率, 如图 19(c)所示.

      本文提出的方法BFSD利用显著区域的颜色和深度特征分布关系基于贝叶斯框架下进行融合, 在颜色显著情况和深度显著情况下均得到较好的ROC曲线, 如图 18(b)图 18(b)所示.最后, 如图 19(d)所示, 对于NJU-DS2000数据集总体情况本文提出的方法BFSD在检测准确率、召回率和F测度均优于GMR、MC、MDF和ACSD 4种方法.

    • 通过观察NLPR数据集提出3D显著性区域在RGB图像和Depth图像分布的三种情况, 但是对于NJU-DS2000数据集存在上述假设之外的情况.如图 20所示, 第一行和第二行的背向观察者的男子在真值图像中标记为不显著的, 而在第三行中背向观察者的男子在真值图像中标记为显著的.从RGB图像中观察, 背向观察者的男子没有面向观察者(第一行和第三行)的男子或者(第二行的)女子显著, 但是从Depth图像观察, 背向观察者的男子由于距离观察者相对较近, 则会吸引较多的注意.由于提出的方法采用了贝叶斯框架下融合颜色显著特征和深度显著特征进行显著性检测, 通过有监督的生成模型进行学习, 依赖有标签的RGB图像和Depth图像数据进行训练.当样本中存在3D显著性分布不一致的情形, 尤其RGB图像和Depth图像存在"冲突的"的区域, 如图 20所示的背向观察者的男子, 本文方法无法准确地估计其显著性.

      图  20  失败情况

      Figure 20.  Some failure cases

    • 提出一种基于贝叶斯框架融合RGB图像颜色信息和Depth图像深度信息的RGB-D图像显著性检测方法.首先分析3D显著性在RGB图像和Depth图像分布的情况, 采用类条件互信息熵分析由卷积神经网络提取的颜色特征和深度特征的条件独立性, 根据贝叶斯定理得到RGB-D图像显著性的后验概率.假设颜色特征和深度特征符合高斯分布, 采用DMNB生成模型进行显著性检测建模, 其模型参数由变分最大期望算法进行估计.在RGB-D图像显著性目标公开数据集NLPR和NJU-DS2000上测试, 对于3D显著性分布的三种情况, 提出的方法BFSD与6种state-of-the-art显著性检测方法比较, 其中包括2D显著性方法ACSD[38]、GMR[32]、MC[33]、MDF[34]和3D显著性检测方法LMH[40]、GP[39], 实验结果表明提出的方法均获得较高的准确率和召回率.

      对于基于贝叶斯框架的RGB-D图像显著性检测问题, 未来仍有有几个关键问题需要进行深入研究, 主要包括先验参数的在线估计以及变分推理算法的优化问题.

参考文献 (58)

目录

    /

    返回文章
    返回