2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于递归残差网络的图像超分辨率重建

周登文 赵丽娟 段然 柴晓亮

周登文, 赵丽娟, 段然, 柴晓亮. 基于递归残差网络的图像超分辨率重建. 自动化学报, 2019, 45(6): 1157-1165. doi: 10.16383/j.aas.c180334
引用本文: 周登文, 赵丽娟, 段然, 柴晓亮. 基于递归残差网络的图像超分辨率重建. 自动化学报, 2019, 45(6): 1157-1165. doi: 10.16383/j.aas.c180334
ZHOU Deng-Wen, ZHAO Li-Juan, DUAN Ran, CHAI Xiao-Liang. Image Super-resolution Based on Recursive Residual Networks. ACTA AUTOMATICA SINICA, 2019, 45(6): 1157-1165. doi: 10.16383/j.aas.c180334
Citation: ZHOU Deng-Wen, ZHAO Li-Juan, DUAN Ran, CHAI Xiao-Liang. Image Super-resolution Based on Recursive Residual Networks. ACTA AUTOMATICA SINICA, 2019, 45(6): 1157-1165. doi: 10.16383/j.aas.c180334

基于递归残差网络的图像超分辨率重建


DOI: 10.16383/j.aas.c180334
详细信息
    作者简介:

    赵丽娟   华北电力大学控制与计算机工程学院硕士研究生.2015年获得邢台学院数学与信息技术学院学士学位.主要研究方向为计算机视觉和深度学习.E-mail:zhaolj97@163.com

    段然  华北电力大学控制与计算机工程学院硕士研究生.2016年获得北京理工大学计算机学院学士学位.主要研究方向为计算机视觉和深度学习.E-mail:1162227075@ncepu.edu.cn

    柴晓亮  华北电力大学控制与计算机工程学院硕士研究生.2016年获得平顶山学院信息工程学院学士学位.主要研究方向为图像处理和图像超分辨率.E-mail:13051603700@163.com

    通讯作者: 周登文  华北电力大学控制与计算机工程学院教授.主要研究方向为图像去噪, 图像去马赛克, 图像插值和图像超分辨率.本文通信作者.E-mail:zdw@ncepu.edu.cn
  • 基金项目:

    中央高校基本科研业务费专项资金 2018ZD06

    北京市自然科学基金 4162056

Image Super-resolution Based on Recursive Residual Networks

More Information
    Author Bio:

      Master student at the School of Control and Computer Engineering, North China Electric Power University. She received her bachelor degree from the School of Mathematics and Information Technology, Xingtai University in 2015. Her research interest covers computer vision and deep learning

      Master student at the School of Control and Computer Engineering, North China Electric Power University. She received her bachelor degree from the School of Computing, Beijing Institute of Technology in 2016. Her research interest covers computer vision and deep learning

     Master student at the School of Control and Computer Engineering, North China Electric Power University. He received his bachelor degree from the School of Information Engineering, Pingdingshan University in 2016. His research interest covers image processing and image super-resolution

    Corresponding author: ZHOU Deng-Wen    Professor at the School of Control and Computer Engineering, North China Electric Power University. His research interest covers image denoising, image demosaicing, image interpolation and image super-resolution. Corresponding author of this paper
  • Fund Project:

    the Fundamental Research Funds for the Central Universities 2018ZD06

    Beijing Natural Science Foundation 4162056

  • 摘要: 深度卷积神经网络在单图像超分辨率重建方面取得了卓越成就,但其良好表现通常以巨大的参数数量为代价.本文提出一种简洁紧凑型递归残差网络结构,该网络通过局部残差学习减轻训练深层网络的困难,引入递归结构保证增加深度的同时控制模型参数数量,采用可调梯度裁剪方法防止产生梯度消失/梯度爆炸,使用反卷积层在网络末端直接上采样图像到超分辨率输出图像.基准测试表明,本文在重建出同等质量超分辨率图像的前提下,参数数量及计算复杂度分别仅为VDSR方法的1/10和1/(2n2).
    本文责任编委 王亮
  • 图  1  残差块结构[18]

    Fig.  1  Residual block structure[18]

    图  2  网络结构示意图

    Fig.  2  Network structure diagram

    图  3  RRSR具体网络结构图

    Fig.  3  The specific network structure of RRSR

    图  4  递归块结构

    Fig.  4  Recursive block structure

    图  5  各种UC组合所构成网络的性能对比图

    Fig.  5  The performance of various networks at U and C combinations

    图  6  各种SISR方法的×3模型在Set5测试集上的平均PSNR值及参数数量

    Fig.  6  Average PSNR and number of parameters on the testset Set5 for scale factor ×3 of various SISR methods

    图  7  测试集BSD100中的"img_092"重建结果对比图

    Fig.  7  A comparison of the reconstruction results of "img_092" in the testset BSD100

    图  8  测试集Set5中的"butterfly"重建对比图

    Fig.  8  A comparison of the reconstruction results of "butterfly" in the testset Set5

    图  9  各种SISR方法的×4模型在测试集Set14上的平均运行时间及平均PSNR值[10]

    Fig.  9  Speed and average PSNR of various SISR methods on the Set14 with scale factor × 4[10]

    表  1  不同RRSR组件构成的$\times3$模型在Set5测试集上的平均PSNR值及参数量

    Table  1  Average PSNR and number of parameters when different RRSR components are turned on or off, for scale factor $\times3$ on testset Set5

    局部残差 递归结构 PSNR (dB) 参数数量($\times10^3$)
    × × 33.27 371
    × 33.58 371
    33.70 39
    下载: 导出CSV

    表  2  各种SISR方法的$\times2$, $\times3$和$\times4$模型在测试集Set5、Set14和BSD100上的平均PSNR值与SSIM值

    Table  2  Average PSNR/SSIMs of various SISR methords for scale factor $\times2$, $\times3$ and $\times4$ on Set5, Set14 and BSD100

    测试集 放大倍数 Bicubic PSNR/SSIM SelfEx PSNR/SSIM SRCNN PSNR/SSIM FSRCNN PSNR/SSIM VDSR PSNR/SSIM RRSR PSNR/SSIM
    Set5 ×2 33.66/0.9299 36.49/0.9537 36.66/0.9542 37.00/0.9558 37.53/0.9587 37.55/0.9588
    Set5 ×3 30.39/0.8682 32.58/0.9093 32.75/0.9090 33.16/0.9140 33.66/0.9213 33.70/0.9208
    Set5 ×4 28.42/0.8104 30.31/0.8619 30.48/0.8628 30.71/0.8657 31.35/0.8838 31.32/0.8836
    Set14 ×2 30.24/0.8688 32.22/0.9034 32.42/0.9063 32.64/0.9088 33.03/0.9124 33.04/0.9125
    Set14 ×3 27.55/0.7742 29.16/0.8196 29.28/0.8209 29.43/0.8242 29.77/0.8314 29.75/0.8307
    Set14 ×4 26.00/0.7027 27.40/0.7518 27.49/0.7503 27.60/0.7535 28.01/0.7674 28.00/0.7675
    BSD100 ×2 29.56/0.8431 31.18/0.8855 31.36/0.8879 31.51/0.8906 31.90/0.8960 31.91/0.8961
    BSD100 ×3 27.21/0.7385 28.29/0.7840 28.41/0.7863 28.52/0.7897 28.82/0.7976 28.78/0.7969
    BSD100 ×4 25.96/0.6675 26.84/0.7106 26.90/0.7101 26.97/0.7128 27.29/0.7251 27.25/0.7249
    下载: 导出CSV
  • [1] Oktay O, Bai W, Lee M, Guerrero R, Kamnitsas K, Caballero J, et al. Multi-input cardiac image super-resolution using convolutional neural networks. In: Proceedings of the 2016 International Conference on Medical Image Computing and Computer-assisted Intervention. Athens, Greece: Springer, Cham, 2016. 246-254
    [2] Luo Y, Zhou L, Wang S, Wang Z Y. Video satellite imagery super resolution via convolutional neural networks. IEEE Geoscience and Remote Sensing Letters, 2017, 14(12):2398-2402 doi:  10.1109/LGRS.2017.2766204
    [3] Rasti P, Uiboupin T, Escalera S, Anbarjafari G. Convolutional neural network super resolution for face recognition in surveillance monitoring. In: Proceedings of the 2016 International Conference on Articulated Motion and Deformable Objects. Palma de Mallorca, Spain: Springer, Cham, 2016. 175-184
    [4] 陆志芳, 钟宝江.基于预测梯度的图像插值算法.自动化学报, 2018, 44(6):1072-1085 http://www.aas.net.cn/CN/abstract/abstract19297.shtml

    Lu Zhi-Fang, Zhong Bao-Jiang. Image interpolation with predicted gradients. Acta Automatica Sinica, 2018, 44(6):1072-1085 http://www.aas.net.cn/CN/abstract/abstract19297.shtml
    [5] 熊娇娇, 卢红阳, 张明辉, 刘且根.基于梯度域的卷积稀疏编码磁共振成像重建.自动化学报, 2017, 43(10):1841-1849 http://www.aas.net.cn/CN/abstract/abstract19159.shtml

    Xiong Jiao-Jiao, Lu Hong-Yang, Zhang Ming-Hui, Liu Qie-Gen. Convolutional sparse coding in gradient domain for MRI reconstruction. Acta Automatica Sinica, 2017, 43(10):1841-1849 http://www.aas.net.cn/CN/abstract/abstract19159.shtml
    [6] Dong C, Chen C L, He K M, Tang X O. Learning a deep convolutional network for image super-resolution. In: Proceedings of the 13th European Conference on Computer Vision, Zurich Switzerland: Springer, Cham, 2014. 184-199
    [7] Dong C, Chen C L, Tang X O. Accelerating the super-sesolution convolutional neural network. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, Cham, 2016. 391-407
    [8] Kim J, Lee J K, Lee K M. Accurate image super-resolution using very deep convolutional networks. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 1646-1654
    [9] Lim B, Son S, Kim H, Nah S, Lee K M. Enhanced deep residual networks for single image super-resolution. In: Proceedings of the 2017 IEEE Computer Vision and Pattern Recognition Workshops. Honolulu, USA: IEEE, 2017. 1132-1140
    [10] Lai W S, Huang J B, Ahuja N, Yang M H. Deep laplacian pyramid networks for fast and accurate super-resolution. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 5835-5843
    [11] Ledig C, Theis L, Huszar F, Caballero J, Cunningham A, Acosta A, et al. Photo-realistic single image super-resolution using a generative adversarial network. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 105-114
    [12] Dong C, Chen C L, He K M, Tang X O. Image super-resolution using deep convolutional networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(2):295-307 http://d.old.wanfangdata.com.cn/Periodical/jsjfzsjytxxxb201709007
    [13] Timofte R, De Smet V, Van Gool L. A+: Adjusted anchored neighborhood regression for fast super-resolution. In: Proceedings of the 2015 Asian Conference on Computer Vision. Singapore, Singapore: Springer, Cham. 2015. 111-126
    [14] 胡长胜, 詹曙, 吴从中.基于深度特征学习的图像超分辨率重建.自动化学报, 2017, 43(5):814-821 http://www.aas.net.cn/CN/abstract/abstract19059.shtml

    Hu Chang-Sheng, Zhan Shu, Wu Cong-Zhong. Image super-resolution based on deep learning features. Acta Automatica Sinica, 2017, 43(5):814-821 http://www.aas.net.cn/CN/abstract/abstract19059.shtml
    [15] Kim J, Lee J K, Lee K M. Deeply-recursive convolutional network for image super-resolution. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada, USA: IEEE, 2016. 1637-1645
    [16] Yang W H, Feng J S, Xie G S, Liu J Y, Guo Z M, Yan S C. Video super-resolution based on spatial-temporal recurrent residual networks. Computer Vision and Image Understanding, 2018, 168:79-92 doi:  10.1016/j.cviu.2017.09.002
    [17] LeCun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11):2278-2324 doi:  10.1109/5.726791
    [18] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada, USA: IEEE, 2016. 770-778
    [19] Mao X J, Shen C H, Yang Y B. Image restoration using very deep convolutional encoder-decoder networks with symmetric skip connections. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: NIPS, 2016. 2810-2818
    [20] Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines. In: Proceedings of the 27th International Conference on Machine Learning. Haifa, Israel: ICML, 2010. 807-814
    [21] Pascanu R, Mikolov T, Bengio Y. On the difficulty of training recurrent neural networks. In: Proceedings of the 30th International Conference on Machine Learning. Atlanta, USA: ICML, 2013, 28(3): 1310-1318
    [22] Perez-Pellitero E, Salvador J, Ruiz-Hidalgo J, Rosenhahn B. PSyCo: Manifold span reduction for super resolution. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 1837-1845
    [23] Huang Y, Wang W, Wang L. Video super-resolution via bidirectional recurrent convolutional networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4):1015-1028 doi:  10.1109/TPAMI.2017.2701380
    [24] Yang J C, Wright J, Huang T S, Ma Y. Image super-resolution via sparse representation. IEEE Transactions on Image Processing, 2010, 19(11):2861-2873 doi:  10.1109/TIP.2010.2050625
    [25] Schulter S, Leistner C, Bischof H. Fast and accurate image upscaling with super-resolution forests. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 3791-3799
    [26] Martin D, Fowlkes C, Tal D, Malik J. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics. In: Proceedings of the 2002 International Conference on Computer Vision. Vancouver, BC, Canada: IEEE, 2002. 416-423
    [27] Bevilacqua M, Roumy A, Guillemot C, Alberi Morel M L. Low-complexity single-image super-resolution based on nonnegative neighbor embedding. In: Proceedings of the 23rd British Machine Vision Conference. Surrey UK: BMVA Press, 2012. 1-10
    [28] Zeyde R, Elad M, Protter M. On single image scaleup using sparse-representations. In: Proceedings of the 2012 International Conference on Curves and Surfaces. Avignon, France: Springer, Berlin, Heidelberg, 2012. 711-730
    [29] Jia Y Q, Shelhamer E, Donahue J, Karayev S, Long J, Girshick R, et al. Caffe: convolutional architecture for fast feature embedding. In: Proceedings of the 22nd ACM International Conference on Multimedia. New York, USA: ACM, 2014. 675-678
    [30] He K M, Zhang X Y, Ren S Q, Sun J. Delving deep into rectifiers: surpassing human-level performance on imagenet classification. In: Proceedings of the 2015 International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 1026-1034
    [31] Huang J B, Singh A, Ahuja N. Single image super-resolution from transformed self-exemplars. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 5197-5206
    [32] Shi W Z, Caballero J, Huszar F, Totz J, P Aitken A, Bishop R, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 1874-1883
    [33] Wang Z W, Liu D, Yang J C, Han W, Huang T. Deep networks for image super-resolution with sparse prior. In: Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: OALib Journal, 2015. 370-378
    [34] Vedaldi A, Lenc K. MatConvNet: convolutional neural networks for MATLAB. In: Proceedings of the 23rd ACM International Conference on Multimedia. New York, USA: ACM, 2015. 689-692
  • [1] 林景栋, 吴欣怡, 柴毅, 尹宏鹏. 卷积神经网络结构优化综述[J]. 自动化学报, 2020, 46(1): 24-37. doi: 10.16383/j.aas.c180275
    [2] 林金花, 姚禹, 王莹. 基于深度图及分离池化技术的场景复原及语义分类网络[J]. 自动化学报, 2019, 45(11): 2178-2186. doi: 10.16383/j.aas.2018.c170439
    [3] 罗浩, 姜伟, 范星, 张思朋. 基于深度学习的行人重识别研究进展[J]. 自动化学报, 2019, 45(11): 2032-2049. doi: 10.16383/j.aas.c180154
    [4] 李良福, 马卫飞, 李丽, 陆铖. 基于深度学习的桥梁裂缝检测算法研究[J]. 自动化学报, 2019, 45(9): 1727-1742. doi: 10.16383/j.aas.2018.c170052
    [5] 张号逵, 李映, 姜晔楠. 深度学习在高光谱图像分类领域的研究现状与展望[J]. 自动化学报, 2018, 44(6): 961-977. doi: 10.16383/j.aas.2018.c170190
    [6] 田娟秀, 刘国才, 谷珊珊, 鞠忠建, 刘劲光, 顾冬冬. 医学图像分析深度学习方法研究与挑战[J]. 自动化学报, 2018, 44(3): 401-424. doi: 10.16383/j.aas.2018.c170153
    [7] 陈伟宏, 安吉尧, 李仁发, 李万里. 深度学习认知计算综述[J]. 自动化学报, 2017, 43(11): 1886-1897. doi: 10.16383/j.aas.2017.c160690
    [8] 罗建豪, 吴建鑫. 基于深度卷积特征的细粒度图像分类研究综述[J]. 自动化学报, 2017, 43(8): 1306-1318. doi: 10.16383/j.aas.2017.c160425
    [9] 孙旭, 李晓光, 李嘉锋, 卓力. 基于深度学习的图像超分辨率复原研究进展[J]. 自动化学报, 2017, 43(5): 697-709. doi: 10.16383/j.aas.2017.c160629
    [10] 胡长胜, 詹曙, 吴从中. 基于深度特征学习的图像超分辨率重建[J]. 自动化学报, 2017, 43(5): 814-821. doi: 10.16383/j.aas.2017.c150634
    [11] 奚雪峰, 周国栋. 面向自然语言处理的深度学习研究[J]. 自动化学报, 2016, 42(10): 1445-1465. doi: 10.16383/j.aas.2016.c150682
    [12] 段艳杰, 吕宜生, 张杰, 赵学亮, 王飞跃. 深度学习在控制领域的研究现状与展望[J]. 自动化学报, 2016, 42(5): 643-654. doi: 10.16383/j.aas.2016.c160019
    [13] 郭潇逍, 李程, 梅俏竹. 深度学习在游戏中的应用[J]. 自动化学报, 2016, 42(5): 676-684. doi: 10.16383/j.aas.2016.y000002
    [14] 时增林, 叶阳东, 吴云鹏, 娄铮铮. 基于序的空间金字塔池化网络的人群计数方法[J]. 自动化学报, 2016, 42(6): 866-874. doi: 10.16383/j.aas.2016.c150663
    [15] 贺昱曜, 李宝奇. 一种组合型的深度学习模型学习率策略[J]. 自动化学报, 2016, 42(6): 953-958. doi: 10.16383/j.aas.2016.c150681
    [16] 常亮, 邓小明, 周明全, 武仲科, 袁野, 杨硕, 王宏安. 图像理解中的卷积神经网络[J]. 自动化学报, 2016, 42(9): 1300-1312. doi: 10.16383/j.aas.2016.c150800
    [17] 随婷婷, 王晓峰. 一种基于CLMF的深度卷积神经网络模型[J]. 自动化学报, 2016, 42(6): 875-882. doi: 10.16383/j.aas.2016.c150741
    [18] 金连文, 钟卓耀, 杨钊, 杨维信, 谢泽澄, 孙俊. 深度学习在手写汉字识别中的应用综述[J]. 自动化学报, 2016, 42(8): 1125-1141. doi: 10.16383/j.aas.2016.c150725
    [19] 朱煜, 赵江坤, 王逸宁, 郑兵兵. 基于深度学习的人体行为识别算法综述[J]. 自动化学报, 2016, 42(6): 848-857. doi: 10.16383/j.aas.2016.c150710
    [20] 潘宗序, 禹晶, 胡少兴, 孙卫东. 基于多尺度结构自相似性的单幅图像超分辨率算法[J]. 自动化学报, 2014, 40(4): 594-603. doi: 10.3724/SP.J.1004.2014.00594
  • 加载中
图(9) / 表(2)
计量
  • 文章访问数:  475
  • HTML全文浏览量:  123
  • PDF下载量:  374
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-05-22
  • 录用日期:  2018-11-05
  • 刊出日期:  2019-06-20

基于递归残差网络的图像超分辨率重建

doi: 10.16383/j.aas.c180334
    作者简介:

    赵丽娟   华北电力大学控制与计算机工程学院硕士研究生.2015年获得邢台学院数学与信息技术学院学士学位.主要研究方向为计算机视觉和深度学习.E-mail:zhaolj97@163.com

    段然  华北电力大学控制与计算机工程学院硕士研究生.2016年获得北京理工大学计算机学院学士学位.主要研究方向为计算机视觉和深度学习.E-mail:1162227075@ncepu.edu.cn

    柴晓亮  华北电力大学控制与计算机工程学院硕士研究生.2016年获得平顶山学院信息工程学院学士学位.主要研究方向为图像处理和图像超分辨率.E-mail:13051603700@163.com

    通讯作者: 周登文  华北电力大学控制与计算机工程学院教授.主要研究方向为图像去噪, 图像去马赛克, 图像插值和图像超分辨率.本文通信作者.E-mail:zdw@ncepu.edu.cn
基金项目:

中央高校基本科研业务费专项资金 2018ZD06

北京市自然科学基金 4162056

摘要: 深度卷积神经网络在单图像超分辨率重建方面取得了卓越成就,但其良好表现通常以巨大的参数数量为代价.本文提出一种简洁紧凑型递归残差网络结构,该网络通过局部残差学习减轻训练深层网络的困难,引入递归结构保证增加深度的同时控制模型参数数量,采用可调梯度裁剪方法防止产生梯度消失/梯度爆炸,使用反卷积层在网络末端直接上采样图像到超分辨率输出图像.基准测试表明,本文在重建出同等质量超分辨率图像的前提下,参数数量及计算复杂度分别仅为VDSR方法的1/10和1/(2n2).

本文责任编委 王亮

English Abstract

  • 单图像超分辨率(Single image super-resolution, SISR)重建是一种经典的计算机视觉问题, 旨在从一个给定的低分辨率(Low-resolution, LR)图像中恢复高分辨率(High-resolution, HR)图像.由于SISR恢复了高频信息, 因此被广泛应用于需要更多图像细节的领域, 如医疗成像[1]、卫星成像[2]、安全监控[3]等.

    现有超分辨率(Super-resolution, SR)图像重建技术主要分为三大类:基于插值的SR[4]技术, 基于重建的SR[5]技术和基于学习的SR[6-16]技术.目前的SR算法大多基于学习(或基于图像块), 通过学习LR图像和HR图像之间的映射来重建SR图像.作为SISR的先驱卷积神经网络(Convolutional neural network, CNN)[17]模型, 超分辨率卷积神经网络(SRCNN)[6]可以用端到端的方式学习LR/HR间的非线性映射, 其性能显著优于传统的非深度学习(Deep learning, DL)方法.之后, Dong等在文献[7]中又提出加速超分辨率卷积神经网络(FSRCNN), 旨在加速SRCNN.该模型直接从原始LR图像(无插值)学习映射到HR图像, 大大减小了计算复杂度.然而, 以上两种模型均使用浅层网络直接学习原始映射函数, 图像恢复质量不佳. 2016年, Kim等提出了基于CNN的SISR算法---VDSR[8].其网络有20个卷积层, 引入了全局残差学习, 并以较高的学习率训练模型, SISR性能得到较大幅度提升.但其需要在CNN学习之前通过双三次插值对LR图像进行上采样, 计算成本较高, 内存占用较大.

    近两年来, SISR方法大多通过加深网络提升性能[9-11].在网络层数加深的同时, 参数数量、内存空间和计算复杂度也随之增加.受计算能力、内存空间和功耗等方面的限制, 这些方法在移动或嵌入式等资源受限的设备中实用价值不大.本文基于VDSR方法, 构建出一种新型递归残差网络结构(RRSR), 旨在不损失图像恢复质量的前提下, 构建结构更紧凑、模型参数更少、计算复杂度更低的网络模型, 提升SISR方法在资源受限的移动或嵌入式等设备上的实用价值.具体来说, 本文方法主要有以下几点贡献:

    1) RRSR引入局部残差学习传递更多图像信息.在VDSR中, 残差图像是从网络的输入和输出估计的, 称为全局残差学习.此外, 如视觉识别[18]和图像恢复[19]中观察到的那样, 非常深的网络可能会遇到性能退化问题, 其原因在于图像经过多层传输后, 会丢失大量的细节信息.为解决该问题, RRSR引入局部残差学习的增强型残差块结构, 其恒等分支不仅能够将深层图像细节传送到后层, 还有助于梯度流动.

    2) RRSR采用残差块的递归结构减少参数数量. RRSR还将递归结构引入到残差块中, 构成一个递归残差网络, 并且权重集合在这些残差块之间共享, 参数数量大大减少, 模型结构更加紧凑.

    3) RRSR通过反卷积操作降低计算复杂度.计算复杂度与输入图像的大小成正比, 本文模型使用原始未插值的LR图像作为输入, 而VDSR则是将插值后的LR图像作为输入, 其大小约为RRSR的n2倍.同时, 我们使用的网络层数更少, 经计算, VDSR的计算复杂度约为RRSR的2n2倍.

    • SRCNN共由三部分组成:特征提取、特征的非线性映射、SR图像重建. SRCNN将插值后的LR图像作为输入, 直接输出SR图像, 从而证明了CNN可以用端到端的方式学习图像间的非线性映射.虽然图像性能比传统的非DL方法有了很大的提升, 但其层数较浅, 学习能力有限, 不能重建出高质量的SISR图像.

    • FSRCNN的提出旨在加速SRCNN, 该方法重新设计了SRCNN网络, 提出一个紧凑的沙漏形CNN结构.该模型在网络末端引入反卷积层, 并重新制定了映射层, 在映射之前先缩小输入特征维度, 映射之后再扩大特征维度, 使模型提速40多倍, 甚至图像有更好的恢复质量.受FSRCNN启发, 所提方法同样使用反卷积层对图像进行上采样, 但性能比FSRCNN有显著提升.

    • 残差网络(ResNet)的主要思想是根据输入学习残差函数而非原始函数, 这使得深层网络的训练更加简单, 而且能由更深的网络获得更好的性能.

      将输入表示为$x$, 底层映射表示为$H(x)$, 残差映射定义为:

      $$ F(x):= H(x)- x $$ (1)

      则残差块结构如下:

      $$ \hat x = U(x) = \sigma(F(x, W) + h(x)) $$ (2)

      其中, $\hat x$是残差块的输出, $h(x)$是一个恒等映射[18]且$h(x) = x$, $W$是一组权重(省略偏差以简化符号), $F(x, W)$是待学习的残差映射, 函数$\sigma$表示Relu[20]激活函数, $U$表示残差块函数.对于堆叠两个卷积层的基本残差块, $F(x, W) = W_2\sigma(W_1x)$.

      残差映射比原始映射更容易优化.在极端情况下, 如果某个恒等映射是最优的, 那么将残差变为0比用非线性层的堆叠来拟合恒等映射更为简单.公式$F(x)+x$可以通过前馈神经网络的短连接来实现, 恒等的短连接并不增加额外的参数和计算复杂度.残差块结构如图 1所示.

      图  1  残差块结构[18]

      Figure 1.  Residual block structure[18]

      残差网络的提出, 打破了加深网络层数不能提升性能的说法.然而, 原始ResNet被提出来是用于解决更高层次的计算机视觉问题, 如图像分类和目标检测.将ResNet架构直接应用于图像超分辨率重建的低级视觉问题可能不是最佳模型.本文方法借鉴残差学习的思想, 使网络能够进行局部残差学习, 但所提方法采用了一种新的残差块结构, 与ResNet中的链模式不同.

    • VDSR使用非常深的CNN (20层卷积层), 使得精度显著提升.然而, 训练非常深的网络, 收敛速度是关键.若仅通过提高学习率来加快收敛速度, 可能会导致梯度消失/梯度爆炸.为解决该问题, Kim等没有采用ResNet中的归一初始化和中间归一化, 而是提出一种可调整的梯度裁剪方法.

      梯度裁剪技术通常用于训练循环神经网络[21], 其在CNN中的用法十分有限, 常用的策略之一就是将单个梯度裁剪到预定义的范围$[-\theta, \theta]$. CNN通常使用随机梯度下降方法训练网络, 用梯度乘上学习率以调整步长来更新梯度.如果使用高学习率, 则需要将$\theta$调整到一个很小的值以避免产生梯度爆炸.但是随着学习率变小, 有效梯度(梯度乘以学习率)接近于零, 如果学习率以几何速率降低, 训练则会以指数级迭代次数收敛.对于最大收敛速度, VDSR将梯度裁剪为$[-\theta/\gamma, \theta/\gamma]$, 其中$\gamma$表示当前学习速率[8].可调梯度裁剪能够使网络快速收敛, 本文方法同样采用可调梯度裁剪来防止梯度消失/梯度爆炸.

      VDSR借鉴ResNet思想, 在网络中引入了全局残差学习, 即插值后的LR输入图像与HR输出图像之间的残差学习.与VDSR不同的是, RRSR采用局部残差学习, 即在网络内部堆叠多个残差块, 使网络能够学到更多有用的信息.

      VDSR在CNN学习之前要通过双三次插值增加LR图像的分辨率, 但同时也增加了计算成本.尽管VDSR生成图像的质量有显著提升, 但是深层网络结构需要庞大的参数数量, 相较于紧凑模型, 大模型需要更多的存储空间.

    • 本文方法旨在不损失VDSR图像恢复质量的前提下, 改进VDSR模型, 使其网络结构更加简洁紧凑. VDSR共20层卷积层, 通过在深层网络中多次级联小型滤波器, 使得精度显著提升.然而, 深层网络结构会产生大量参数, 占用过多存储空间.并且, 该模型是将插值后的LR图像作为输入, 其大小为原始LR图像的$n^2$倍($n$为放大因子), 而计算复杂度与输入图像的大小成正比, 该操作使计算复杂度呈指数级增长.

      针对上述问题, 本文提出一种递归残差网络.该模型使用局部残差学习而非VDSR所用全局残差学习来训练深层网络, 更有助于信息传输和梯度流动; 在残差块中引入递归结构, 使得参数减少, 模型更加紧凑; 将未插值的LR图像作为输入, 最后在网络末端使用反卷积层直接上采样到SR输出图像, 使得计算复杂度大大降低.如图 2所示, 网络整体由三部分组成:特征提取、残差函数的非线性映射、SR图像重建.

      图  2  网络结构示意图

      Figure 2.  Network structure diagram

      图 3示出本文模型的具体网络结构. LR输入图像经过一层卷积层和一层Relu层提取特征, 然后将提取到的特征输入到若干残差块中, 递归学习残差映射函数.最后, 在网络末端使用反卷积层直接对学到的残差图像进行上采样, 重建出SR输出图像.

      图  3  RRSR具体网络结构图

      Figure 3.  The specific network structure of RRSR

      第2.1~2.3节分别详细介绍了局部残差学习、递归结构和反卷积层; 第2.4节探讨控制网络结构的两大参数对网络性能的影响.

    • 最近, 残差网络ResNet在低级到高级计算机视觉任务中均表现出优秀的性能.所提方法采用ResNet中的残差学习思想以及跳跃连接, 构成增强型残差块结构.与ResNet的残差块不同, RRSR先通过卷积层提取LR输入图像的高频特征, 之后每经过两层卷积层, 都加上第一层卷积层提取的特征图像, 即残差块中所有恒等分支的输入均保持相同.该方法不仅能够向网络深层传递更多图像信息, 其恒等分支还有助于训练期间梯度的反向传播, 避免出现过拟合现象[22].本文将残差块函数定义为:

      $$ H^u = R(H^{u-1}) = F(H^{u-1}, W) + H^0 $$ (3)

      其中, $H^u$是第$u$个残差块的输出结果, $R$表示残差块函数, $F(H^{u-1}, W)$是待学习的残差映射, $ W$为权重集合, $H^0$是经过第一层卷积层输出的特征图像.

    • 近年来, 各种SISR方法大都通过加深网络层数提高性能.但是, 随着层数的增加, 参数数量也在增大, 导致计算量和存储空间需求的增加.为了控制模型参数, 本文将递归结构引入到残差块中, 使得权重在残差块之间共享, 并且模型更加紧凑[23]. 图 4给出递归块的基本结构:在递归块的开头引入卷积层和Relu层, 然后叠加多个残差块, $H^0$为每个残差块的恒等映射, $H^u$为经过第$u$个残差块的输出结果, 由此形成递归结构. $B$表示递归结构中包含的残差块数.

      图  4  递归块结构

      Figure 4.  Recursive block structure

      根据式(3), 可得第$u$个残差块的结果为:

      $$ H^u = R^{\left( u \right)}(H^0) = R(R(\cdots (R(H^0)) \cdots)) $$ (4)

      通过式(4)可以看出, 第$u$个残差块的结果可由残差块函数$R$递归得到.

    • RRSR的网络末端为反卷积层, 该层使用一组反卷积滤波器对输出的残差图像进行上采样.不同于传统的插值方法, 反卷积是可以学习到图像特征的上采样内核, 可被视为卷积的逆运算.对于卷积操作, 当滤波器移动步幅为$k$时, 输出为输入的$1/k$; 反之, 反卷积操作的输出则为输入的$k$倍.当$k$等于放大因子$n$时, 通过反卷积层可直接输出所需尺寸的SR图像, 并降低网络计算复杂度.

      RRSR及VDSR的计算复杂度可分别用式(5)和式(6)进行计算:

      $$ {\rm O}\{(f_1^2m_1 + m_1f_2^2m_2 + \cdots + m_{L - 2}f_{L - 1}^2m_{L - 1} \; + \nonumber \\ \qquad m_{L - 1}f_L^2m_L \cdot n^2 ) \cdot S_{\rm input} \} $$ (5)
      $$ {\rm O}\{(f_1^2m_1 + m_1f_2^2m_2 + m_2f_3^2m_3 + \cdots \; + \nonumber \\ \qquad m_{L - 1}f_L^2m_L) \cdot S_{\rm input} \} $$ (6)

      其中, $f_i (i = 1, 2, \cdots, L)$表示第$i$层滤波器的大小, $m_i (i = 1, 2, \cdots, L)$表示第$i$层滤波器的个数, $S_{\rm input}$是输入图像的大小, $n$为放大因子.

      本文方法卷积层的参数设置与VDSR相同, 均使用64个大小为$3\times3$的滤波器; 最后一层RRSR使用1个大小为$5\times5$的滤波器, VDSR使用1个大小为$3\times3$的滤波器.由式(5)及式(6)可知, 网络计算复杂度与输入图像的大小成正比, VDSR输入图像的大小约为本文方法输入图像的$n^2$倍.此外, VDSR网络共有20层, 而本文方法只有12层, 故VDSR的计算复杂度约为本文方法的$2n^2$倍.

    • 本节将探讨各种$U$、$C$组合所构成不同结构的递归残差网络对模型性能的影响, 其中$U$代表残差块数, $C$代表每个残差块中的卷积层数.如图 5所示, 本文在6到20层的深度范围内对几个不同网络结构进行采样, 测试结果均为各个网络的$\times3$模型在Set5测试集上的平均峰值信噪比(Peak signal to noise ratio, PSNR)值.

      图  5  各种UC组合所构成网络的性能对比图

      Figure 5.  The performance of various networks at U and C combinations

      为清楚地展示单个参数对RRSR网络性能的影响, 本文采用控制变量法进行分析.在图 5中, 曲线代表具有相同网络层数的不同网络结构, 曲线上的数字表示层数, 点的颜色对应右侧相应的PSNR值.当$C$为2时, 对比$U3C2$、$U4C2$和$U5C2$的网络性能, 其PSNR值随着$U$的增大而增加; 当$U$为3时, 对比$U3C2$、$U3C3$和$U3C4$的网络性能, 其PSNR值随着$C$的增大而增加.以上结果表明网络性能的提升可能与$U$和$C$成正相关, 但这两种情况随着$U$、$C$的增加, 网络层数也在增加.为进一步验证网络层数对模型性能的影响, 将网络层数固定为某一值, 以14层网络为例, 对比$U6C2$、$U4C3$和$U3C4$网络的PSNR, 发现PSNR值随着残差块数量的增加而增加.并且由于递归网络结构的特点, 当$C=2$时使用参数数量最少.因此将$C$固定为2, 通过改变$U$来选择最佳参数.据图 5, 当$U$增加到5时, 网络性能达到饱和, 故本文将12层的$U5C2$网络作为最终模型.

    • 本节将对实验部分进行详细说明, 并展示所提方法与多种SISR方法的比较结果.

    • 不同的基于学习的SISR方法使用不同的训练集. SRCNN使用ImageNet训练集. FSRCNN使用General-100训练集, 其中为100幅无压缩bmp格式图像, 并联合使用Yang等[24]的91幅图像作为训练图像. VDSR使用文献[25]中的291幅图像作为训练集, 该训练集在Yang等[24]的91幅图像集中又添加了Berkeley Segmentation Dataset[26]中的200幅图像.为充分利用训练集, VDSR通过缩放和旋转的方式对训练集进行数据增强.为将本文方法与VDSR进行客观公正的比较, 本文采用与VDSR[8]相同的训练集, 并进行相同的数据增强.

    • 测试阶段采用三个广泛使用的基准测试集Set5[27]、Set14[28]和BSD100[26]进行测试, 它们分别包含5幅、14幅和100幅图像.

    • 对于输入图像, 首先采用放大因子$n$对原始训练图像进行下采样, 成为LR图像.然后将LR图像裁剪成一组具有步幅$k$, 大小为$f_{\rm sub} \times f_{\rm sub}$像素的子图像, 并从对应的真实图像中裁剪出相应的大小为$(nf_{\rm sub})^2$像素的HR子图像, 这些LR/HR子图像对即为训练样本.为保证映射过程中图像大小不变, 卷积层均采用"0"填充.影响子图像大小的另一因素是反卷积层.在用Caffe包[29]训练RRSR时, 反卷积滤波器将生成大小为$(nf_{\rm sub}-n+1)^2$而不是$(nf_{\rm sub})^2$的输出图像.因此, 还需在HR子图像上裁剪$(n-1)$像素的边界.最后, 对于$\times2$, $\times3$和$\times4$模型, 分别将LR/HR子图像对的大小设为$25^2/49^2$, $17^2/49^2$和$13^2/49^2$.

    • 本文所提网络深度为12层, 对于每层卷积层, 都使用64个大小为$3\times3$的滤波器; 对于反卷积层, 滤波器的大小为$5\times5$, 步幅等于放大因子$n$.训练时, 图像批处理的大小为128, 动量为0.9, 权重衰减参数为0.0001.初始学习率设定为0.1, 然后每隔15代学习率减半, 120代后学习停止, 损失函数为均方误差(Mean square error, MSE)函数.本文实验环境: Caffe框架, MATLAB (R2015b)平台和一个NVIDIA GTX Titan X GPU (12 GB内存).

    • 关于权重初始化问题, 所提方法卷积层采用He等[30]提出的"msra"方法进行初始化; 反卷积层则使用均值为0, 标准差为0.001的高斯分布随机初始化.将Relu函数作为激活函数.训练阶段, 首先训练$\times3$模型直至饱和.然后, 使用$\times3$模型训练好的参数初始化$\times2$和$\times4$模型的权重, 并进行微调, 收敛速度远比重新训练要快.

    • 为了说明局部残差学习和递归结构的有效性, 本文以12层RRSR$\times3$模型为模型Ⅰ, 然后在其基础上通过删除或改变跳跃连接方式, 构造网络结构不同但深度相同的模型Ⅱ和模型Ⅲ, 并用Set5测试集验证其性能, 测试结果见表 1.其中, 模型Ⅱ是将模型Ⅰ的残差函数学习改为原始映射函数学习, 此模型类似于FSRCNN[7], 没有跳跃连接, 因此也就不存在递归结构; 模型Ⅲ是在模型Ⅱ的基础上根据本文所提跳跃连接方式增加跳跃连接, 构成分别包含卷积层数为2-4-4的残差块, 此模型仍然没有递归结构.由表 1可知, 局部残差学习能够向网络深处传递更多有效图像信息, 学到更多图像特征, 使得图像恢复质量有较大幅度提升.递归结构的加入, 不仅使参数数量大幅降低, 同时还提升了图像的恢复质量, 网络结构更加紧凑, 性能更优.

      表 1  不同RRSR组件构成的$\times3$模型在Set5测试集上的平均PSNR值及参数量

      Table 1.  Average PSNR and number of parameters when different RRSR components are turned on or off, for scale factor $\times3$ on testset Set5

      局部残差 递归结构 PSNR (dB) 参数数量($\times10^3$)
      × × 33.27 371
      × 33.58 371
      33.70 39
    • 近年来非DL方法[23, 26, 31]和DL方法[6, 7, 13, 32, 33]通常用于基准测试, 本节与这些SISR方法进行了定量定性的比较.

      表 2提供了本文方法与Bicubic、SelfEx[31]、SRCNN[12]、FSRCNN[7]和VDSR[8]方法的定量评估总结.其中, 文献[8, 12, 31]的结果从文献[8]中引用, FSRCNN的结果来自我们的重新测试, 代码为作者公开发布的源代码.由表 2可知, 本文方法生成图像的平均PSNR值和结构相似性(Structure similarity index measurement, SSIM)与VDSR不相上下, 但比其他SISR方法重建图像的质量有大幅提升.同时, 图 6示出, 在此种情况下, 本文方法使用参数更少.

      表 2  各种SISR方法的$\times2$, $\times3$和$\times4$模型在测试集Set5、Set14和BSD100上的平均PSNR值与SSIM值

      Table 2.  Average PSNR/SSIMs of various SISR methords for scale factor $\times2$, $\times3$ and $\times4$ on Set5, Set14 and BSD100

      测试集 放大倍数 Bicubic PSNR/SSIM SelfEx PSNR/SSIM SRCNN PSNR/SSIM FSRCNN PSNR/SSIM VDSR PSNR/SSIM RRSR PSNR/SSIM
      Set5 ×2 33.66/0.9299 36.49/0.9537 36.66/0.9542 37.00/0.9558 37.53/0.9587 37.55/0.9588
      Set5 ×3 30.39/0.8682 32.58/0.9093 32.75/0.9090 33.16/0.9140 33.66/0.9213 33.70/0.9208
      Set5 ×4 28.42/0.8104 30.31/0.8619 30.48/0.8628 30.71/0.8657 31.35/0.8838 31.32/0.8836
      Set14 ×2 30.24/0.8688 32.22/0.9034 32.42/0.9063 32.64/0.9088 33.03/0.9124 33.04/0.9125
      Set14 ×3 27.55/0.7742 29.16/0.8196 29.28/0.8209 29.43/0.8242 29.77/0.8314 29.75/0.8307
      Set14 ×4 26.00/0.7027 27.40/0.7518 27.49/0.7503 27.60/0.7535 28.01/0.7674 28.00/0.7675
      BSD100 ×2 29.56/0.8431 31.18/0.8855 31.36/0.8879 31.51/0.8906 31.90/0.8960 31.91/0.8961
      BSD100 ×3 27.21/0.7385 28.29/0.7840 28.41/0.7863 28.52/0.7897 28.82/0.7976 28.78/0.7969
      BSD100 ×4 25.96/0.6675 26.84/0.7106 26.90/0.7101 26.97/0.7128 27.29/0.7251 27.25/0.7249

      图  6  各种SISR方法的×3模型在Set5测试集上的平均PSNR值及参数数量

      Figure 6.  Average PSNR and number of parameters on the testset Set5 for scale factor ×3 of various SISR methods

      图 7图 8展示了上述各种方法的定性评估结果.通过对图像细节的放大, 能够从视觉效果上直观地评估各种SISR方法重建图像的质量.在图 7图 8中, 第一行图像为不同SISR方法对同一幅图像的重建结果; 第二行为对应方法重建图像中矩形框标注区域的放大图像; 第三行为对应方法重建图像的PSNR值与SSIM值.图 7示出, 对于桥上木板的重建, 除了VDSR, 其他方法严重模糊, 甚至条纹产生畸变, 而本文方法的恢复图像中木板缝隙清晰、条纹平行, 相较之前方法图像的恢复质量, 本文方法有大幅提升.类似地, 在图 8中, 本文方法完美地重建了蝴蝶翅膀上的花纹, 而其他方法生成的图像有明显的振铃现象, 且边缘比较模糊.

      图  7  测试集BSD100中的"img_092"重建结果对比图

      Figure 7.  A comparison of the reconstruction results of "img_092" in the testset BSD100

      图  8  测试集Set5中的"butterfly"重建对比图

      Figure 8.  A comparison of the reconstruction results of "butterfly" in the testset Set5

      图 9示出各种SISR方法$\times4$模型在测试集Set14上的平均运行时间及平均PSNR值.由于SRCNN和FSRCNN的测试代码基于CPU实现, 为保证比较的公平性, Lai等[10]在MatConvNet工具[34]中使用相同的网络权重对其进行重建, 以测量GPU上的运行时间.本文使用与图 9中其他方法相同的测试环境, 即配有NVIDIA Titan X GPU (12GB内存)的机器重新测试VDSR及RRSR方法的运行时间.由图 9可知, 所提RRSR方法运行速度比其他SISR方法都快.

      图  9  各种SISR方法的×4模型在测试集Set14上的平均运行时间及平均PSNR值[10]

      Figure 9.  Speed and average PSNR of various SISR methods on the Set14 with scale factor × 4[10]

    • 本文提出一种在残差块中引入递归结构的新型残差网络, 所采用跳跃连接和递归结构可有效减轻网络携带特征信息的负担, 实现高质量超分辨率图像的重建.与VDSR方法相比, 本文在重建出同等质量超分辨率图像的前提下, 网络结构更紧凑、模型参数更少、计算复杂度更低, 在存储资源和计算能力有限的移动设备上具有潜在实用价值.后续将进一步研究如何使用同一网络生成多尺度超分辨率图像, 以及设计更紧凑的网络结构, 重建更高质量的超分辨率图像.

参考文献 (34)

目录

    /

    返回文章
    返回