2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于灵敏度分析的模块化回声状态网络修剪算法

王磊 乔俊飞 杨翠丽 朱心新

王磊, 乔俊飞, 杨翠丽, 朱心新. 基于灵敏度分析的模块化回声状态网络修剪算法. 自动化学报, 2019, 45(6): 1136-1145. doi: 10.16383/j.aas.c180288
引用本文: 王磊, 乔俊飞, 杨翠丽, 朱心新. 基于灵敏度分析的模块化回声状态网络修剪算法. 自动化学报, 2019, 45(6): 1136-1145. doi: 10.16383/j.aas.c180288
WANG Lei, QIAO Jun-Fei, YANG Cui-Li, ZHU Xin-Xin. Pruning Algorithm for Modular Echo State Network Based on Sensitivity Analysis. ACTA AUTOMATICA SINICA, 2019, 45(6): 1136-1145. doi: 10.16383/j.aas.c180288
Citation: WANG Lei, QIAO Jun-Fei, YANG Cui-Li, ZHU Xin-Xin. Pruning Algorithm for Modular Echo State Network Based on Sensitivity Analysis. ACTA AUTOMATICA SINICA, 2019, 45(6): 1136-1145. doi: 10.16383/j.aas.c180288

基于灵敏度分析的模块化回声状态网络修剪算法


DOI: 10.16383/j.aas.c180288
详细信息
    作者简介:

    乔俊飞  北京工业大学信息学部教授.主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化.E-mail:junfeq@bjut.edu.cn

    杨翠丽  北京工业大学信息学部讲师.主要研究方向为神经网络和智能优化算法.E-mail:clyang5@bjut.edu.cn

    朱心新  北京工业大学硕士研究生.主要研究方向为神经网络结构设计与优化.E-mail:1205580412@emails.bjut.edu.cn

    通讯作者: 王磊  北京工业大学信息学部博士研究生.主要研究方向为神经网络结构设计与优化.本文通信作者.E-mail:jade_wanglei@163.com
  • 基金项目:

    北京市博士后工作经费资助项目 2017ZZ-028

    北京市教委项目 KM201710005025

    国家自然科学基金 61603012

    国家自然科学基金 61533002

Pruning Algorithm for Modular Echo State Network Based on Sensitivity Analysis

More Information
    Author Bio:

      Professor at the Faculty of Information Technology, Beijing University of Technology. His research interest covers intelligent control of wastewater treatment process, structure design and optimization of neural networks

     i Lecturer at the Faculty of Information Technology, Beijing University of Technology. Her research interest covers neural network and intelligent optimization algorithm

      Master student at the Faculty of Information Technology, Beijing University of Technology. Her research interest covers structure design and optimization of neural networks

    Corresponding author: WANG Lei   Ph. D. candidate at the Faculty of Information Technology, Beijing University of Technology. His research interest covers structure design and optimization of neural networks. Corresponding author of this paper
  • Fund Project:

    Beijing Postdoctoral Research Foundation 2017ZZ-028

    Beijing Municipal Education Commission Foundation KM201710005025

    Supported by National Natural Science Foundation of China 61603012

    Supported by National Natural Science Foundation of China 61533002

  • 摘要: 针对回声状态网络(Echo state network,ESN)的结构设计问题,提出基于灵敏度分析的模块化回声状态网络修剪算法(Pruning algorithm for modular echo state network,PMESN).该网络由相互独立的子储备池模块构成.首先利用矩阵的奇异值分解(Singular value decomposition,SVD)构造子储备池模块的权值矩阵,并利用分块对角阵原理生成储备池.然后利用子储备池模块输出和相应的输出层权值向量,定义学习残差对于子储备池模块的灵敏度以及网络规模适应度.利用灵敏度大小判断子储备池模块的贡献度,并根据网络规模适应度确定子储备池模块的个数,删除灵敏度低的子模块.在网络的修剪过程中,不需要缩放权值就可以保证网络的回声状态特性.实验结果说明,所提出的算法有效解决了ESN的网络结构设计问题,基本能够确定与样本数据相匹配的网络规模,具有较好的泛化能力和鲁棒性.
    本文责任编委 鲁仁全
  • 图  1  无输出反馈的基本ESN结构

    Fig.  1  The basic architecture of the OESN without feedback

    图  2  无输出反馈的具有多个子储备池的模块化ESN结构

    Fig.  2  The architecture of MESN without feedback

    图  3  基于PMESN和OESN的含噪声的Lorenz时间序列预测结果

    Fig.  3  Prediction results based on PMESN and OESN for Lorenz time series with noise

    图  4  基于PMESN和OESN的含噪声的Lorenz时间序列的模型设计成功率

    Fig.  4  Successful design ratio based on PMESN and OESN for Lorenz time series with noise

    图  5  基于PMESN和OESN的含噪声的非线性系统辨识预测结果

    Fig.  5  Prediction results based on PMESN and OESN for nonlinear system identification with noise

    图  6  基于PMESN和OESN的含噪声的非线性系统辨识的模型设计成功率

    Fig.  6  Successful design ratio based on PMESN and OESN for nonlinear system identification with noise

    图  7  基于PMESN和OESN的出水NH4-N浓度预测结果

    Fig.  7  Prediction results based on PMESN and OESN for effluent NH4-N prediction

    图  8  基于PMESN和OESN的出水NH4-N浓度预测的模型设计成功率

    Fig.  8  Successful design ratio based on PMESN and OESN for effluent NH4-N prediction

    表  1  子储备池规模对PMESN性能的影响

    Table  1  Influence of sub-reservoir size on PMESN

    子储备池
    规模
    训练时间(s) 测试NRMSE
    平均值 标准差
    3 25.12 8.92×10-3 8.87×10-4
    5 27.23 4.56×10-3 4.82×10-4
    10 24.35 5.13×10-3 5.48×10-4
    15 23.68 6.35×10-3 6.69×10-4
    20 22.19 6.98×10-3 6.95×10-4
    下载: 导出CSV

    表  2  储备池初始规模对PMESN性能的影响

    Table  2  Influence of initial reservoir size on PMESN

    储备池初
    始规模
    训练时间(s) 测试NRMSE
    平均值 标准差
    100 22.15 8.92 × 10-3 8.78 × 10-4
    200 24.54 4.89 × 10-3 4.82 × 10-4
    300 26.36 4.72 × 10-3 4.89 × 10-4
    400 27.26 4.35 × 10-3 4.48 × 10-4
    500 28.39 3.99 × 10-3 4.06 × 10-4
    600 32.68 4.82 × 10-3 5.38 × 10-4
    下载: 导出CSV

    表  3  网络规模适应度阈值对PMESN性能的影响

    Table  3  Influence of fitness threshold of network size on PMESN

    网络规模适
    储备池初
    始规模
    测试NRMSE 储备池最
    终规模
    平均值 标准差
    1 500 4.12 × 10-3 4.23 × 10-4 432
    0.9 500 4.23 × 10-3 4.19 × 10-4 413
    0.8 500 4.08 × 10-3 4.29 × 10-4 395
    0.7 500 4.21 × 10-3 4.36 × 10-4 382
    0.6 500 4.19 × 10-3 4.06 × 10-4 365
    0.5 500 4.15 × 10-3 4.13 × 10-4 329
    0.4 500 4.02 × 10-3 4.09 × 10-4 298
    0.3 500 9.58 × 10-3 9.37 × 10-4 275
    0.2 500 5.58 × 10-3 5.62 × 10-4 246
    0.1 500 8.69 × 10-3 8.36 × 10-4 213
    下载: 导出CSV

    表  4  基于不同模型的含噪声的Lorenz时间序列预测的参数和仿真结果对比

    Table  4  Comparison of some parameters and simulation results of different models for Lorenz time series with noise

    网络模型 储备池
    初始规模
    储备池
    最终规模
    谱半径 稀疏度 网络规模适
    应度阈值
    训练时间(s) NRMSE
    平均值 标准差
    PMESN 500 285 0.8500 0.0100 0.4 28.85 4.01 × 10-3 3.64 × 10-4
    OESN[1] 500 500 0.8500 0.0500 - 25.32 8.38 × 10-3 6.38 × 10-4
    SCR[8] 500 500 0.8000 0.0020 - 22.15 8.28 × 10-3 8.16 × 10-4
    DESN[9] 500 500 0.8000 0.0238 - 27.35 9.12 × 10-3 9.43 × 10-4
    GESN[6] 50 400 0.9236 0.0200 - 81.35 3.96× 10-3 4.15 × 10-4
    SIPA-SCR[11] 500 463 0.8500 0.0020 - 41.39 5.65 × 10-3 5.68 × 10-4
    AEESN[13] 500 385 0.8500 0.0500 - 31.39 5.31 × 10-3 5.06 × 10-4
    “–”表示原文献中无此参数
    下载: 导出CSV

    表  5  基于不同模型的含噪声的非线性系统辨识的参数和仿真结果对比

    Table  5  Comparison of some parameters and simulation results of different models for nonlinear system identification with noise

    网络模型 储备池
    初始规模
    储备池
    最终规模
    谱半径 稀疏度 网络规模适
    应度阈值
    训练时间(s) NRMSE
    平均值 标准差
    PMESN 500 245 0.8500 0.0100 0.5 39.88 0.0359 0.0020
    OESN[1] 500 500 0.8500 0.0500 - 34.46 0.0723 0.0023
    SCR[8] 500 500 0.8000 0.0020 - 29.86 0.0692 0.0021
    DESN[9] 500 500 0.8000 0.0238 - 36.85 0.0812 0.0022
    GESN[6] 50 400 0.9236 0.0200 - 83.69 0.0436 0.0019
    SIPA-SCR[11] 500 445 0.8500 0.0020 - 45.66 0.0582 0.0024
    AEESN[13] 500 376 0.8500 0.0500 - 37.79 0.0519 0.0018
    “–”表示原文献中无此参数
    下载: 导出CSV

    表  6  基于不同模型的出水NH4-N浓度预测的参数和仿真结果对比

    Table  6  Comparison of some parameters and simulation results of different models for effluent NH4-N prediction

    网络模型 储备池
    初始规模
    储备池
    最终规模
    谱半径 稀疏度 网络规模适
    应度阈值
    训练时间(s) NRMSE
    平均值 标准差
    PMESN 500 255 0.8500 0.0100 0.4 38.83 0.2039 0.0198
    OESN[1] 500 500 0.8500 0.0500 - 32.19 0.3328 0.0232
    SCR[8] 500 500 0.8000 0.0020 - 29.86 0.2938 0.0286
    DESN[9] 500 500 0.8000 0.0238 - 35.92 0.3426 0.0312
    GESN[6] 50 400 0.9236 0.0200 - 91.08 0.2236 0.0022
    SIPA-SCR[11] 500 458 0.8500 0.0020 - 44.26 0.2935 0.0301
    AEESN[13] 500 365 0.8500 0.0500 - 39.33 0.2899 0.0268
    “–”表示原文献中无此参数
    下载: 导出CSV
  • [1] Jaeger H, Haas H. Harnessing nonlinearity:predicting chaotic systems and saving energy in wireless communication. Science, 2004, 304(5667):78-80 doi:  10.1126/science.1091277
    [2] 伦淑娴, 林健, 姚显双.基于小世界回声状态网的时间序列预测.自动化学报, 2015, 41(9):1669-1679 http://www.aas.net.cn/CN/abstract/abstract18740.shtml

    Lun Shu-Xian, Lin Jian, Yao Xian-Shuang. Time series prediction with an improved echo state network using small world network. Acta Automatica Sinica, 2015, 41(9):1669-1679 http://www.aas.net.cn/CN/abstract/abstract18740.shtml
    [3] Qiao J F, Wang L, Yang C L, Gu K. Adaptive Levenberg-Marquardt algorithm based echo state network for chaotic time series prediction. IEEE Access, 2018, 6:10720-10732 doi:  10.1109/ACCESS.2018.2810190
    [4] Bo Y C, Zhang X. Online adaptive dynamic programming based on echo state networks for dissolved oxygen control. Applied Soft Computing, 2018, 62:830-839 doi:  10.1016/j.asoc.2017.09.015
    [5] Skowronski M D, Harris J G. Noise-robust automatic speech recognition using a predictive echo state network. IEEE Transactions on Audio, Speech and Language Processing, 2007, 15(5):1724-1730 doi:  10.1109/TASL.2007.896669
    [6] Qiao J F, Li F J, Han H G, Li W J. Growing echo-state network with multiple subreservoirs. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(2):391-404 doi:  10.1109/TNNLS.2016.2514275
    [7] Dutoit X, Schrauwen B, Van Campenhout J, Stroobandt D, Van Brussel H, Nuttin M. Pruning and regularization in reservoir computing. Neurocomputing, 2009, 72(7-9):1534-1546 doi:  10.1016/j.neucom.2008.12.020
    [8] Rodan A, Tino P. Minimum complexity echo state network. IEEE Transactions on Neural Networks, 2011, 22(1):131-144 doi:  10.1109/TNN.2010.2089641
    [9] Xue Y B, Yang L, Haykin S. Decoupled echo state networks with lateral inhibition. Neural Networks, 2007, 20(3):365-376 doi:  10.1016/j.neunet.2007.04.014
    [10] 薄迎春, 乔俊飞, 张昭昭.一种具有small world特性的ESN结构分析与设计.控制与决策, 2012, 27(3):383-388 http://d.old.wanfangdata.com.cn/Periodical/kzyjc201203011

    Bo Ying-Chun, Qiao Jun-Fei, Zhang Zhao-Zhao. Analysis and design on structure of small world property ESN. Control and Decision, 2012, 27(3):383-388 http://d.old.wanfangdata.com.cn/Periodical/kzyjc201203011
    [11] Wang H S, Yan X F. Improved simple deterministically constructed cycle reservoir network with sensitive iterative pruning algorithm. Neurocomputing, 2014, 145(18):353-362 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=a6e249a7313ddb7f834cda7f77763464
    [12] 韩敏, 任伟杰, 许美玲.一种基于L1范数正则化的回声状态网络.自动化学报, 2014, 40(11):2428-2435 http://www.aas.net.cn/CN/abstract/abstract18519.shtml

    Han Min, Ren Wei-Jie, Xu Mei-Ling. An improved echo state network via L1-norm regularization. Acta Automatica Sinica, 2014, 40(11):2428-2435 http://www.aas.net.cn/CN/abstract/abstract18519.shtml
    [13] Xu M L, Han M. Adaptive elastic echo state network for multivariate time series prediction. IEEE Transactions on Cybernetics, 2016, 46(10):2173-2183 doi:  10.1109/TCYB.2015.2467167
    [14] Duan H B, Wang X H. Echo state networks with orthogonal pigeon-inspired optimization for image restoration. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(11):2413-2425 doi:  10.1109/TNNLS.2015.2479117
    [15] Zhong S S, Xie X L, Lin L, Wang F. Genetic algorithm optimized double-reservoir echo state network for multi-regime time series prediction. Neurocomputing, 2017, 238:191-204 doi:  10.1016/j.neucom.2017.01.053
    [16] Wang H S, Yan X F. Optimizing the echo state network with a binary particle swarm optimization algorithm. Knowledge-Based Systems, 2015, 86:182-193 doi:  10.1016/j.knosys.2015.06.003
    [17] Jaeger H. The "Echo State" Approach to Analysing and Training Recurrent Neural Networks-with an Erratum Note, GMD Report 148, German National Research Center for Information Technology, Bonn, Germany, 2010.
    [18] Lorenz E N. Deterministic nonperiodic flow. Journal of the Atmospheric Sciences, 1963, 20(2):130-141 doi:  10.1175/1520-0469(1963)020<0130:DNF>2.0.CO;2
    [19] Lin C J, Chen C H. Identification and prediction using recurrent compensatory neuro-fuzzy systems. Fuzzy Sets and Systems, 2005, 150(2):307-330 doi:  10.1016/j.fss.2004.07.001
    [20] Han H G, Lu W, Hou Y, Qiao J F. An adaptive-PSO-based self-organizing RBF neural network. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(1):104-117 doi:  10.1109/TNNLS.2016.2616413
    [21] Haimi H, Mulas M, Corona F, Vahala R. Data-derived soft-sensors for biological wastewater treatment plants:an overview. Environmental Modelling and Software, 2013, 47:88-107 doi:  10.1016/j.envsoft.2013.05.009
  • [1] 刘涵, 梁莉莉, 黄令帅. 基于分块奇异值分解的两级图像去噪算法[J]. 自动化学报, 2015, 41(2): 439-444. doi: 10.16383/j.aas.2015.c130909
    [2] 崔汉国, 刘健鑫, 李正民. 基于金字塔技术的STL模型数字水印算法[J]. 自动化学报, 2013, 39(6): 852-860. doi: 10.3724/SP.J.1004.2013.00852
    [3] 李阳, 田彦涛, 陈万忠. 基于FFT盲辨识的肌电信号建模及模式识别[J]. 自动化学报, 2012, 38(1): 128-134. doi: 10.3724/SP.J.1004.2012.00128
    [4] 靳其兵, 刘斯文, 权玲, 曹丽婷. 基于奇异值分解的内模控制方法及在非方系统中的应用[J]. 自动化学报, 2011, 37(3): 354-359. doi: 10.3724/SP.J.1004.2011.00354
    [5] 李妍, 毛志忠, 王琰. 基于偏差补偿递推最小二乘的Hammerstein-Wiener模型辨识[J]. 自动化学报, 2010, 36(1): 163-168. doi: 10.3724/SP.J.1004.2010.00163
    [6] 刘颖, 赵珺, 王伟, 吴毅平, 陈伟昌. 基于数据的改进回声状态网络在高炉煤气发生量预测中的应用[J]. 自动化学报, 2009, 35(6): 731-738. doi: 10.3724/SP.J.1004.2009.00731
    [7] 程军圣, 于德介, 杨宇. 基于内禀模态奇异值分解和支持向量机的故障诊断方法[J]. 自动化学报, 2006, 32(3): 475-480.
    [8] 周江华, 刘磊, 管晓宏, 孙国基. Markov离散事件动态系统参数灵敏度估计算法[J]. 自动化学报, 2003, 29(5): 649-657.
    [9] 王亚刚, 邵惠鹤. 一种基于灵敏度的自整定最优PI控制器[J]. 自动化学报, 2001, 27(1): 140-143.
    [10] 梁林, 王桂增. PLS的特征向量选取及其几何解释[J]. 自动化学报, 2000, 26(增刊B): 140-144.
    [11] 刘自宽, 涂菶生. 关键路径与随机串行生产线的灵敏度分析[J]. 自动化学报, 1999, 25(2): 264-268.
    [12] 崔平远. 递推计算灵敏度的极大似然估计算法实现[J]. 自动化学报, 1995, 21(1): 82-86.
    [13] 崔平远, 吴瑶华, 黄文虎, 李乃宏. 极大似然估计的递推计算灵敏度算法[J]. 自动化学报, 1994, 20(1): 114-116.
    [14] 张贤达. 确定ARMA模型MA阶数的一种方法[J]. 自动化学报, 1994, 20(1): 80-84.
    [15] 叶庆凯. 多变量系统传输零点的计算[J]. 自动化学报, 1993, 19(5): 596-599.
    [16] 崔平远, 吴瑶华, 黄文虎, 李乃宏. 递推计算灵敏度的初值正交计算法[J]. 自动化学报, 1992, 18(5): 619-622.
    [17] 徐和生, 陈锦娣, 耿福昌. 具有最小特征值灵敏度的输入-输出反馈补偿器的设计[J]. 自动化学报, 1989, 15(1): 16-22.
    [18] 施颂椒, 王跃云. 基于特征结构配置的最小灵敏度控制器设计[J]. 自动化学报, 1988, 14(2): 81-87.
    [19] 孙增圻. 二次型性能函数对反馈系数阵灵敏度的计算及其在部分状态反馈次优控制设计中的应用[J]. 自动化学报, 1987, 13(5): 397-400.
    [20] 曹长修. 自适应消除干扰的新算法(使用矩阵奇异值分解)[J]. 自动化学报, 1986, 12(2): 146-154.
  • 加载中
图(8) / 表(6)
计量
  • 文章访问数:  256
  • HTML全文浏览量:  84
  • PDF下载量:  213
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-05-08
  • 录用日期:  2018-09-18
  • 刊出日期:  2019-06-20

基于灵敏度分析的模块化回声状态网络修剪算法

doi: 10.16383/j.aas.c180288
    作者简介:

    乔俊飞  北京工业大学信息学部教授.主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化.E-mail:junfeq@bjut.edu.cn

    杨翠丽  北京工业大学信息学部讲师.主要研究方向为神经网络和智能优化算法.E-mail:clyang5@bjut.edu.cn

    朱心新  北京工业大学硕士研究生.主要研究方向为神经网络结构设计与优化.E-mail:1205580412@emails.bjut.edu.cn

    通讯作者: 王磊  北京工业大学信息学部博士研究生.主要研究方向为神经网络结构设计与优化.本文通信作者.E-mail:jade_wanglei@163.com
基金项目:

北京市博士后工作经费资助项目 2017ZZ-028

北京市教委项目 KM201710005025

国家自然科学基金 61603012

国家自然科学基金 61533002

摘要: 针对回声状态网络(Echo state network,ESN)的结构设计问题,提出基于灵敏度分析的模块化回声状态网络修剪算法(Pruning algorithm for modular echo state network,PMESN).该网络由相互独立的子储备池模块构成.首先利用矩阵的奇异值分解(Singular value decomposition,SVD)构造子储备池模块的权值矩阵,并利用分块对角阵原理生成储备池.然后利用子储备池模块输出和相应的输出层权值向量,定义学习残差对于子储备池模块的灵敏度以及网络规模适应度.利用灵敏度大小判断子储备池模块的贡献度,并根据网络规模适应度确定子储备池模块的个数,删除灵敏度低的子模块.在网络的修剪过程中,不需要缩放权值就可以保证网络的回声状态特性.实验结果说明,所提出的算法有效解决了ESN的网络结构设计问题,基本能够确定与样本数据相匹配的网络规模,具有较好的泛化能力和鲁棒性.

本文责任编委 鲁仁全

English Abstract

  • 回声状态网络(Echo state network, ESN)是一种新型递归神经网络, 它的核心是随机稀疏连接的庞大的储备池[1].如果ESN具有回声状态特性(Echo state property, ESP), 则具有较好的稳定性和动态特性, 因此ESN设计的前提是具有ESP特性.在ESN的训练过程中, 输入权值和储备池权值一旦生成, 就固定不变, 只需要对输出权值由简单的线性回归进行训练而得到. ESN这种训练方法的优点可以避免陷入局部极小, 具有较快的学习速度. ESN已经成功地应用于时间序列预测[2-3]、非线性控制[4]、语音识别等领域[5].

    ESN的储备池是随机设定的, 储备池的这种随机性导致了不清晰的动态特性, 一般难以达到根据具体任务相匹配的最优结构.储备池规模过大, 虽然可以精确地拟合训练数据, 但会引入大量的冗余特征和无关特征, 容易产生过拟合现象, 影响网络的泛化能力.反之, 储备池规模过小, 虽然在计算量上有所减少, 然而会影响神经网络的有效性, 易出现欠拟合的现象[6-7].因此如何设计和构造根据具体任务相匹配的储备池结构是ESN研究的一个热点和难点.

    ESN储备池设计主要方法有确定型储备池[2, 8-10]、增长方法[6]、修剪方法[7, 11]、正则化方法[12-13]、进化方法[14-16]等.基于确定型储备池拓扑结构的ESN极大地改进了传统的ESN, 克服了传统ESN储备池的随机性. Rodan等探讨了最小复杂度储备池, 并给出了简单环型储备池(Simple cycle reservoir, SCR), SCR不但结构简单而且性能不亚于传统的ESN, 同时SCR的动态性能优于传统的ESN[8].传统回声状态网络具有单个储备池, 储备池神经元存在耦合现象. Xue等提出了解耦回声状态网络(Decoupled echo state network, DESN), DESN的储备池由多个子储备池构成, 但是没有给出确定子储备池个数的方法[9].薄迎春等给出了一种具有小世界特性的回声状态网络(Small world echo state network, SWESN), SWESN动力学特性比常规ESN更为丰富, 在鲁棒性、抗干扰性等方面均优于传统的ESN[10].伦淑娴提出了改进的小世界回声状态网络, 改进了储备池神经元节点的连接方式, 有目的地实现了稀疏连接, 减小了储备池随机稀疏连接的盲目性[2].增长方法在初始阶段结构简单, 具有计算量小的优点, 但是合适的停止准则是增长法的难点, 同时在储备池的增长过程中, 要具有ESP特性以保证网络的稳定性. Qiao等给出了增量式模块化回声状态网络(Growing echo state network, GESN), GESN的储备池由多个子储备池组成, 子储备池逐渐添加至网络中, 消弱了储备池神经元间的耦合特性.而且, 在储备池增长过程中, 储备池的稀疏度单调下降, 无需对储备池先验矩阵调整即可满足稳定条件, 也能够减少计算负担[6].修剪方法是从一个较大结构开始, 通过停止准则去掉冗余神经元, 在修剪过程中同样需要具有ESP特性. Dutoit等给出了修剪算法对储备池与输出层的冗余权值进行修剪来提高ESN的泛化能力, 但是没有对储备池进行修剪[7]. Wang等给出了敏感迭代修剪算法对SCR进行修剪(Sensitive iterated pruning algorithm-simple cycle reservoir, SIPA-SCR), 首先构造一个较大的SCR, 然后减掉敏感度最低的储备池神经元[11].正则化方法通过正则化参数平衡网络性能与储备池规模, 其难点是正则化参数难以确定.韩敏等给出了基于$ L_1 $范数正则化的方法控制网络规模的复杂度[12].结合$ L_1 $范数和$ L_2 $范数正则化, Xu等给出了自适应弹性网算法(Adaptive elastic echo state network, AEESN)控制网络规模[13].进化类算法是基于生物进化原理的搜索方法, 具有很好的鲁棒性和全局搜索能力, 适用于神经网络结构的优化和调整. Duan等在ESN的训练阶段利用正交鸽群优化算法(Orthogonal pigeon-inspired optimization, OPIO)优化网络参数, 如储备池规模、谱半径、稀疏度等, 实验结果表明OPIO-ESN具有较好的网络性能, 且以较快的速度收敛到全局最优[14]. Zhong等利用进化算法对双层回声状态网络的参数进行优化, 如储备池规模、谱半径等, 实验结果表明, 改进的ESN在精度和稳定性方面具有较好结果[15]. Wang等利用二进制粒子群优化方法(Binary particle swarm optimization, BPSO)优化ESN的输出层连接, 从而改进了传统的ESN结构来提高ESN的性能与泛化能力[16].

    针对以上问题, 本文提出了基于灵敏度分析的模块化回声状态网络修剪算法, 解决了ESN的结构设计问题.在保证网络稳定性的前提下, 既构建了更加紧凑的网络结构, 又保证了网络的泛化能力.

    • 回声状态网络的储备池内含有成百上千个神经元, 彼此耦合在一起. ESN的参数较多, 储备池规模、稀疏度、输入权值及储备池权值范围等需要大量尝试甚至是运气. ESN包含输入层、储备池层、输出层等三层, 没有输出反馈的基本ESN的拓扑结构如图 1所示.输入权值矩阵和储备池权值矩阵在训练前随机确定, 且一旦生成保持固定不变, 只需要对输出权值进行训练.没有输出反馈的基本ESN (Original echo state network, OESN)方程如下:

      图  1  无输出反馈的基本ESN结构

      Figure 1.  The basic architecture of the OESN without feedback

      $$ \begin{equation} {\mathit{\boldsymbol{x}}}(n+1) = {{\rm tanh}}({{W}}^{\rm{in}}{\mathit{\boldsymbol{u}}}(n+1)+{W{{\mathit{\boldsymbol{x}}}}}(n)) \end{equation} $$ (1)
      $$ \begin{equation} {\mathit{\boldsymbol{y}}}(n + 1) = {{W}}^{\rm{out}}({\mathit{\boldsymbol{u}}}(n + 1)^{\rm T}, {\mathit{\boldsymbol{x}}}(n+1)^{\rm T})^{\rm T} \end{equation} $$ (2)

      其中, $ {\mathit{\boldsymbol{u}}}(n)\in{\bf{R}}^{K}, {\mathit{\boldsymbol{x}}}(n)\in{\bf R}^{N}, {\mathit{\boldsymbol{y}}}(n)\in{\bf R}^{L} $分别为ESN网络的输入变量, 储备池状态变量和输出变量; $ W^{\rm in}\in{\bf R}^{N\times K}, W\in{\bf R}^{N\times N}, {W^{\rm out}}\in{\bf R}^{L\times (K+N)} $分别表示输入权值矩阵、储备池权值矩阵、输出权值矩阵; tanh为储备池神经元的激活函数.为了克服初始瞬态的影响, 假设从$ n_{\rm min}+1 $时刻开始收集内部状态矩阵$ {X} = [{{\mathit{\boldsymbol{X}}}}(n_{\rm min}+1), {{\mathit{\boldsymbol{X}}}}(n_{\rm min}+2), \cdots, {{\mathit{\boldsymbol{X}}}}(P)]^{\rm T} $ ($ P $为训练样本数), 其中$ {\mathit{\boldsymbol{X}}}(n) = [{\mathit{\boldsymbol{u}}}(n)^{\rm T}, {\mathit{\boldsymbol{x}}}(n)^{\rm T}]^{\rm T} $, 对应的期望输出矩阵为$ {Z} = [{\mathit{\boldsymbol{z}}}(n_{\rm min}+1), {\mathit{\boldsymbol{z}}}(n_{\rm min}+2), \cdots, {\mathit{\boldsymbol{z}}}(P)]^{\rm T} $输出权值矩阵的计算公式由最小二乘法可得

      $$ \begin{equation} {W}^{\rm out} = ({X^+Z})^{\rm T} = (({X}^{\rm T}{X})^{-1}{X}^{\rm T}{Z})^{\rm T} \end{equation} $$ (3)

      其中, $ \rm T $代表矩阵的转置, $ {X}^+ $代表$ {X} $的广义逆.

    • 构建具有充分多的子储备池的模块化回声状态网络(Modular echo state network, MESN), 其储备池由相互独立的子储备池构成, 可以保证储备池部分神经元的解耦, 如图 2所示.

      图  2  无输出反馈的具有多个子储备池的模块化ESN结构

      Figure 2.  The architecture of MESN without feedback

      设子储备池个数记为$ I $个, MESN的储备池对应的矩阵为分块对角阵$ \Xi $, 如式(4)所示, $ {W}_i\; (1\leq i\leq I) $为对应第$ i $个子储备池的权值矩阵, 对$ {W}_i\; (1\leq i\leq I) $采用SVD分解生成:首先, 按给定的奇异值分布随机生成对角矩阵$ {S}_i = {\rm diag}\{\sigma^1_i, \sigma^2_i, \cdots, \sigma^{n_i}_i\}\; (1\leq i\leq I, 0<\sigma^j_i<1) $, $ n_i $为第$ i $个子储备池的规模, 子储备池的规模可以相同, 也可以不相同, 根据经验一般取为2$ \sim $ 5, 为了处理问题的方便, 假设子储备池规模均相同, 且子储备池全连接; 其次, 同时生成两个随机正交矩阵$ {U}_i = (u_{jk})_{n_i\times n_i}, {V}_i = (v_{jk})_{n_i\times n_i} $, 其中$ u_{jk}, v_{jk}\in (-1, 1)\; (j, k = 1, 2, \cdots, n_i) $, 计算第$ i $个子储备池的权值矩阵$ {W}_i = {{U}_i}{{S}_i}{{V}_i}\; (i = 1, 2, \cdots, I) $, 由奇异值分解, $ {W}_i $与$ {S}_i $有相同的奇异值, 所以$ {W}_i $的所有奇异值均小于1, 而$ \Xi $为分块对角阵, 从而$ \Xi $的所有奇异值也均小于1, 满足回声状态特性的充分性条件. $ {\Xi}^{\rm in} $为对应的输入权值矩阵, 如式(5)所示, 其中$ {W}_i^{\rm in}\; (1\leq i\leq I) $为第$ i $个子储备池对应的输入权值矩阵. $ {\bf\Theta}(n) $为MESN的储备池状态变量, 如式(6)所示, 其中$ {{\mathit{\boldsymbol{x}}}}_i(n)\; (1\leq i\leq I) $为第$ i $个子储备池的状态变量, 其中储备池状态变量更新公式如式(7)所示:

      $$ \begin{equation} {\Xi} = \left[ \begin{array}{cccc} {W}_1 & & \\ & {W}_2 & \\ & & \ddots \\ & & &{W}_I \end{array} \right] \end{equation} $$ (4)
      $$ \begin{equation} {\Xi}^{\rm in} = \left[ \begin{array}{cccc} {W}_1^{\rm in} \\ {W}_2^{\rm in} \\ \vdots \\ {W}_I^{\rm in} \end{array} \right] \end{equation} $$ (5)
      $$ \begin{equation} {\mathit{\boldsymbol{\Theta}}}(n) = ({\mathit{\boldsymbol{x}}}_1^{\rm T}(n), {\mathit{\boldsymbol{x}}}^{\rm T}_2(n), \cdots, {\mathit{\boldsymbol{x}}}_I^{\rm T}(n))^{\rm T} \end{equation} $$ (6)
      $$ \begin{equation} {\mathit{\boldsymbol{\Theta}}}(n) = {{\rm tanh}}({{\Xi}}^{\rm in}{\mathit{\boldsymbol{u}}}(n)+{{\Xi\bf\Theta}}(n-1)) \end{equation} $$ (7)

      定义第$ i $个子储备池的内部状态矩阵: $ {H}_i = [{\mathit{\boldsymbol{X}}}_{i}(n_{\rm min}+1), {\mathit{\boldsymbol{X}}}_{i}(n_{\rm min}+2), \cdots, {\mathit{\boldsymbol{X}}}_{i}(P)]^{\rm T}\; (1\leq i\leq I) $, 其中$ {\mathit{\boldsymbol{X}}_i}(n) = [{\mathit{\boldsymbol{u}}}^{\rm T}(n), {\mathit{\boldsymbol{x}}}_i^{\rm T}(n)]^{\rm T}\; (n = n_{\rm min}+1, \cdots, P) $, 相应的期望输出矩阵为$ {{Z}} = [{\mathit{\boldsymbol{z}}}(n_{\rm min}+1), {\mathit{\boldsymbol{z}}}(n_{\rm min}+2), \cdots, {\mathit{\boldsymbol{z}}}(P)]^{\rm T} $, $ P $为训练样本数, 则定义MESN的内部状态矩阵$ H = [H_1, H_2, \cdots, H_I] $ MESN相应的网络输出如式(8)所示, 输出权值矩阵由最小二乘法计算, 如式(9)所示:

      $$ \begin{equation} {\mathit{\boldsymbol{y}}}(n ) = {H} ({W}^{\rm out}_*)^{\rm T} \end{equation} $$ (8)
      $$ \begin{equation} {W}^{\rm out}_* = ({H^+Z})^{\rm T} = (({H}^{\rm T}{H})^{-1}{H}^{\rm T}{Z})^{\rm T} \end{equation} $$ (9)

      其中, $ \rm T $代表矩阵的转置, $ {{H}}^+ $代表$ {{H}} $的广义逆.

    • $$ \begin{align} \label{eq10} {\mathit{\boldsymbol{y}}}(n) = \, & {H}_1({W}_1^{\rm out})^{\rm T}(n)+{H}_2({W}_2^{\rm out})^{\rm T}(n) +\cdots+\\& {H}_I({W}_I^{\rm out})^{\rm T}(n) \end{align} $$ (10)

      假设删除第$ i $个子储备池模块, 则网络输出变为

      $$ \begin{gather} {\mathit{\boldsymbol{y}}}^\prime(n) = {H}_1({W}_1^{\rm out})^{\rm T}(n)+\cdots+{H}_{i-1}({W}_{i-1}^{\rm out})^{\rm T}(n)+\\ {H}_{i+1}({W}_{i+1}^{\rm out})^{\rm T}(n)+\cdots+ {H}_I({W}_I^{\rm out})^{\rm T}(n) \end{gather} $$ (11)

      则残差$ {\left\| {\mathit{\boldsymbol{y}}}(n)-{\mathit{\boldsymbol{y}}}^\prime(n) \right\|} = {\left\| {H}_{i}({W}_{i}^{\rm out})^{\rm T}(n) \right\|}, $因此, 定义学习残差相对于第$ i $个子储备池模块的灵敏度为

      $$ \begin{equation} S_i = {\frac{1}{P-n_{\rm min}}}{\sum\limits_{n = n_{\rm min}+1}^P}{\left\| {H}_{i}({W}_{i}^{\rm out})^{\rm T}(n) \right\|} \end{equation} $$ (12)

      $ S_i $越大表明第$ i $个子储备池模块对于学习残差的贡献度越大, 所以由灵敏度可以对子储备池模块进行排序$ S_1^\prime\geq S_2^\prime\geq\cdots\geq S_I^\prime $.删除的子储备池模块贡献度越大, 学习残差越大, 所以网络规模适应度(Model scale adaptability, MSA)可由灵敏度定义为

      $$ \begin{equation} M_k = {\frac{\sum\limits_{i = 1}^{k}{S_i^\prime}}{\sum\limits_{i = 1}^{I}{S_i^\prime}}}, 1\leq k\leq I \end{equation} $$ (13)

      与给定任务相匹配的网络规模由子储备池模块个数决定, 子模块数可以由网络规模适应度定义为

      $$ \begin{equation} M = \min \left\{ {k | {M_k\geq\gamma, 1\leq k\leq I} } \right\} \end{equation} $$ (14)

      其中, $ \gamma\; (0\leq\gamma\leq 1) $为网络规模适应度阈值, $ M $为保留的子储备池模块的数量, $ I-M $为冗余的子储备池模块个数, 阈值$ \gamma $可以由凑试的方法确定.为了防止样本信息因子储备池模块被删除而消失, 被保留的子储备池模块的输入权值需要进一步更新.

    • 根据灵敏度$ S_i $将$ I $个子储备池模块排序如下: $ S_{i_1}^1\geq S_{i_2}^2\geq\cdots\geq S_{i_M}^M\geq S_{i_{M+1}}^{M+1}\geq\cdots\geq S_{i_I}^I $, 其中, 下标$ 1\leq i_j \leq I $为排序前的子储备池模块序号, 上标$ 1\leq i \leq I $为排序后的子储备池模块位次序号.由式(13)和(14)选择前$ M $个子储备池模块予以保留, 后$ I-M $个删除.记$ R = \left\{i_1, i_2, \cdots, i_M\right\} $为保留的子储备池模块标号集, $ {\overline R} = \left\{i_{M+1}, \cdots, i_I\right\} $为删除的子储备池模块标号集.为了保存被删除子储备池模块的样本信息, 同时消除过拟合信息, 采用权值平均横向传播的方法更新已经保留的子储备池模块的输入权值, 更新公式为:

      $$ \begin{equation} W_{i_j, \rm new}^{\rm in} = W_{i_j}^{\rm in}+{\frac {1}{I-M}}{\sum\limits_{k = M+1}^I}+W_{i_k}^{\rm in} \end{equation} $$ (15)

      其中, $ 1\leq j\leq M, W_{i_j}^{\rm in}, W_{i_j, \rm new}^{\rm in} $分别为更新前后的第$ j $个子储备池模块对应的输入权值矩阵, $ W_{i_k}^{\rm in}\; (k = M+1, \cdots, I) $为删除的子储备池模块对应的输入权值矩阵.式(15)意味着在删除了敏感度低的$ I-M $个子储备池模块后, 对保留的子储备池模块对应的输入权值进行更新.

      基于以上分析, 下面给出修剪型MESN (Pruning algorithm for modular echo state network, PMESN)的详细步骤:

      步骤1. 给定$ P $个训练样本, 构建一个规模较大的MESN, 子储备池模块个数记为$ I $个, 记内部状态矩阵为$ H $, 输出层权值矩阵为$ {W}_*^{\rm out} $, 设置网络规模适应度阈值$ \gamma $;

      步骤2. 根据$ H $和$ W_*^{\rm out} $, 计算学习残差对第$ i $个子储备池模块的灵敏度$ S_i $, 并对子储备池模块进行排序$ S_{i_1}^1\geq S_{i_2}^2\geq\cdots\geq S_{i_M}^M\geq S_{i_{M+1}}^{M+1}\geq\cdots\geq S_{i_I}^I $, 其中, 下标$ 1\leq i_j \leq I $为排序前的子储备池模块序号, 上标$ 1\leq i \leq I $为排序后的子储备池模块位次序号;

      步骤3. 根据学习残差灵敏度$ S_i $, 由式(13)计算网络规模适应度$ M_k $;

      步骤4. 根据$ M_k $和$ \gamma $, 由式(14)确定子储备池模块个数, 从而选择储备池被删除的子模块进行修剪得到新的MESN的储备池权值矩阵$ {\Xi}_{\rm new} $;

      步骤5. 对保留子储备池模块对应的输入权值由式(15)进行更新得到$ {\Xi}_{\rm new}^{\rm in} $;

      步骤6. 对修剪后的网络计算新的状态矩阵$ {H}_{\rm new} $, 并计算输出权值矩阵$ {W}_{\rm new}^{\rm out} $;

      步骤7. 对训练好的PMESN进行测试.

      下面分析PMESN的计算复杂度. PMESN的计算复杂度主要分为两个部分:

      1) 储备池权值矩阵的构造过程:初始构造$ I $个子储备池的计算复杂度$ {\rm O}(In^3) $, 计算子储备池模块灵敏度的复杂度$ {\rm O}(In) $, 网络规模适应度的计算复杂度$ {\rm O}(I) $, 保留的子储备池模块的数量的计算复杂度$ {\rm O}(I) $, 其中$ n $为子储备池规模, $ I $为初始子储备池个数.因此,该步骤的计算复杂度为$ {\rm O}(In^3)+{\rm O}(In)+{\rm O}(I)+{\rm O}(I) = {\rm O}(I(n^3+n+2)) $.

      2) 输出权值矩阵的计算过程: $ {\rm O}((Mn)^3) $, 其中$ n $为子储备池规模, $ M $为保留的子储备池模块的数量.

      综合以上两个步骤的分析, PMESN的计算复杂度为$ {\rm O}(I(n^3+n+2)+(Mn)^3) $.对比的网络模型SCR[8]、DESN[9]、GESN[6]、SIPA-SCR[11]及AEESN[13]的计算复杂度基本也可以由储备池权值构造和输出权值的计算而产生. PMESN的计算复杂高于OESN、SCR和DESN.第4节的仿真实验所需要的训练时间在一定程度上说明了这个问题.

    • 引理1[17].对于没有输出反馈的ESN, 储备池激活函数为$ \rm tanh $, 如果储备池权值矩阵的最大奇异值$ \sigma_{\max}<1 $, 则ESN具有回声状态特性.

      定理1 (稳定性定理).对于没有输出反馈的PMESN, 储备池激活函数为$ \rm tanh $, 如果子储备池权值矩阵$ {W}_i\; (1\leq i\leq M) $的奇异值$ \sigma_i^j \; (1\leq j \leq n_i) $满足$ 0<a\leq \sigma_i^j\leq b<1 $, 则PMESN具有回声状态特性.

      证明. 根据灵敏度式(13)和网络规模适应度式(14)对储备池规模进行修剪后的储备池权值矩阵为

      $$ \begin{align*} {\Xi}_{\rm new} = \, &{\rm diag}\{{W}_{i_1}, \cdots, {W}_{i_M}\} = \\ &{\rm diag}\{{U}_{i_1}{S}_{i_1}{V}_{i_1}, \cdots, {U}_{i_M}{S}_{i_M}{V}_{i_M}\} = \\ &{U}^{\prime}{\rm diag}\{{S}_{i_1}, \cdots, {S}_{i_M}\}{V}^{\prime} = \\ &{U}^{\prime}{\rm diag}\{\sigma_{i_1}^1 , \cdots, \sigma_{i_1}^{n_i}, \cdots, \sigma_{i_M}^1 , \cdots, \sigma_{i_M}^{n_i}\}{V}^\prime \end{align*} $$

      其中, $ {U}^{\prime} = {\rm diag}\{{U}_{i_1}, \cdots, {U}_{i_M}\} $, $ {V}^{\prime} = {\rm diag}\{{V}_{i_1}, \cdots, {V}_{i_M}\} $为正交矩阵.则$ {\Xi}_{\rm new} $与$ {\rm diag}\{{S}_{i_1}, \cdots, {S}_{i_M}\} $有相同的奇异值, 因此$ \sigma_i^j\; (i_1\leq i\leq i_M, 1\leq j \leq n_i) $为$ {\Xi}_{\rm new} $的全部奇异值, 又$ 0<a\leq \sigma_i^j\leq b<1 $, 所以$ {\Xi}_{\rm new} $的最大奇异值$ \sigma_{\max}<1 $.由引理可知, PMESN具有回声状态特性.

    • 本节选择3个仿真实验对PMESN性能进行对比研究, 包括Lorenz时间序列预测[13, 18-19], 非线性系统辨识[19-20], 污水处理过程出水氨氮浓度预测[20-21].对比的网络模型取SCR[8]、DESN[9], GESN[6]、SIPA-SCR[11]及AEESN[13].所有仿真实验均在理想的软硬件环境中进行:联想台式机(i7-4790, CPU 3.60 GHz, 8.0 GB RAM), 操作系统Windows7, Matlab软件版本2013b.

      为了测试PMESN的预测性能和鲁棒性, 分别选取标准均方根误差(Normalized root-mean-square error, NRMSE)和实验设计成功率$ R(\theta) $作为网络的性能和鲁棒性评价指标[6], 计算公式分别如下:

      $$ \begin{equation} {\rm NRMSE} = \sqrt{\sum\limits_{n = 1}^S\frac{(z(n)-y(n))^2}{S\sigma^2}} \end{equation} $$ (16)
      $$ \begin{equation} R(\theta) = \frac{\sum\limits_{i = 1}^J h(e_i-\theta)}{J} \end{equation} $$ (17)
      $$ \begin{equation} h(x) = \begin{cases} {1}, & x\leq 0 \\ {0}, & x>0 \\ \end{cases} \end{equation} $$ (18)

      其中, $ z(n) $为期望输出, $ y(n) $为网络输出, $ S $为测试样本数量, $ \sigma^2 $为期望输出的方差, $ J $为蒙特卡罗实验次数, $ e_i $为第$ i $次实验的测试NRMSE, $ \theta $为误差阈值. $ R(\theta) $用于估计模型预测误差不大于误差阈值$ \theta $的概率, $ R(\theta) $越大说明网络的鲁棒性越好.

    • Lorenz系统是时间序列预测的经典基准函数[13, 18-19], 其公式如下

      $$ \begin{equation} \begin{cases} {\dfrac{{\rm d}x}{{\rm d}t}} = a_1(y-x) \\ {\dfrac{{\rm d}y}{{\rm d}t}} = -xz+a_2x-y \\ {\dfrac{{\rm d}z}{{\rm d}t}} = xy-a_3z \end{cases} \end{equation} $$ (18)

      其中, $ a_1, a_2 $和$ a_3 $是系统参数, 为了保证Lorenz系统具有混沌特性, 这些系统参数的典型取值为$ a_1 = 10, a_2 = 28, a_3 = 8/3 $. $ x(t), y(t), z(t) $是Lorenz系统的三维空间向量.在实验中, 用四阶Runge-Kutta方法生成2 500个样本数据集, 同时, 为了表明实验的可靠性, 数据样本叠加均匀分布在区间$ [-0.001, 0.001] $上的随机噪声.用$ Y- $维样本$ y(t) $作时间序列预测, 输入为$ [y(t-2), y(t-1), y(t)]^{\rm T} $, 输出为$ y(t+1) $.在数据样本中, 前1 500个样本用于训练, 后1 000个样本用于测试, 同时为了克服初始瞬态的影响, 丢弃训练样本中的前500个.步长取为0.01, 初值$ x(0) = 1, y(0) = 1, z(0) = 0 $.

      为了测试子储备池规模、储备池初始规模以及网络规模适应度阈值对网络性能的影响, 对以上三个参数, 分别选择相应的不同数值的PMESN进行测试.对于以上三个参数的不同取值, 分别进行独立仿真20次. 表 1给出了不同的子储备池规模对网络性能的影响, 由表 1可以看出, 随着子储备池规模的增大, 测试NRMSE的平均值及标准差先减小后增大, 当子储备池规模为5时取最小值, 但此时训练时间最长.基于此, 本文的实验中子储备池规模均取为5. 表 2给出了储备池初始规模对网络性能的影响, 储备池初始规模选择区间为[100, 600], 每间隔100取一次.由表 2可知, 随着储备池初始规模的增大, 训练时间也逐渐增大, 测试NRMSE变化比较平稳, 因此不取过大的储备池初始规模. 表 3给出了网络规模适应度阈值$ \gamma $对网络性能的影响, $ \gamma $从1开始逐渐取到0.1, 每次选取间隔为0.1.由表 3可以看出, 当$ \gamma $逐渐减小时, 储备池最终规模逐渐减小, 测试NRMSE在$ \gamma $取1 $ \sim $ 0.4时变化比较平稳, 当$ \gamma $取0.3 $ \sim $ 0.1时测试NRMSE急剧增大.这说明前期删除的子储备池模块对对网路性能的影响小, 灵敏度能够准确地对子储备池模块进行排序, 可以通过调节$ \gamma $的取值得到结构紧凑的网络模型.

      表 1  子储备池规模对PMESN性能的影响

      Table 1.  Influence of sub-reservoir size on PMESN

      子储备池
      规模
      训练时间(s) 测试NRMSE
      平均值 标准差
      3 25.12 8.92×10-3 8.87×10-4
      5 27.23 4.56×10-3 4.82×10-4
      10 24.35 5.13×10-3 5.48×10-4
      15 23.68 6.35×10-3 6.69×10-4
      20 22.19 6.98×10-3 6.95×10-4

      表 2  储备池初始规模对PMESN性能的影响

      Table 2.  Influence of initial reservoir size on PMESN

      储备池初
      始规模
      训练时间(s) 测试NRMSE
      平均值 标准差
      100 22.15 8.92 × 10-3 8.78 × 10-4
      200 24.54 4.89 × 10-3 4.82 × 10-4
      300 26.36 4.72 × 10-3 4.89 × 10-4
      400 27.26 4.35 × 10-3 4.48 × 10-4
      500 28.39 3.99 × 10-3 4.06 × 10-4
      600 32.68 4.82 × 10-3 5.38 × 10-4

      表 3  网络规模适应度阈值对PMESN性能的影响

      Table 3.  Influence of fitness threshold of network size on PMESN

      网络规模适
      储备池初
      始规模
      测试NRMSE 储备池最
      终规模
      平均值 标准差
      1 500 4.12 × 10-3 4.23 × 10-4 432
      0.9 500 4.23 × 10-3 4.19 × 10-4 413
      0.8 500 4.08 × 10-3 4.29 × 10-4 395
      0.7 500 4.21 × 10-3 4.36 × 10-4 382
      0.6 500 4.19 × 10-3 4.06 × 10-4 365
      0.5 500 4.15 × 10-3 4.13 × 10-4 329
      0.4 500 4.02 × 10-3 4.09 × 10-4 298
      0.3 500 9.58 × 10-3 9.37 × 10-4 275
      0.2 500 5.58 × 10-3 5.62 × 10-4 246
      0.1 500 8.69 × 10-3 8.36 × 10-4 213

      为了进一步验证PMESN算法的有效性, 分别与SCR、DESN、GESN、SIPA-SCR及AEESN做对比研究, 在相同条件下进行20次独立仿真.详细的对比结果如表 4所示, 由表 4可以看出, 虽然PMESN的训练时间不是最短的, 但是储备池最终规模为285, 相对其他网络模型具有较紧凑的网络结构, 而且具有较好的预测性能. 图 3给出了PMESN及OESN对含噪声的Lorenz时间序列预测输出及预测误差, 由图 3可以看出PMESN的性能优于OESN. 图 4给出了基于PMESN和OESN的含噪声的Lorenz时间序列的模型设计成功率, 由图 4可以看出PMESN对于含有噪声的Lorenz时间序列预测模型设计成功率高于OESN.当阈值$ \theta $为$ 3\times10^{-3} $时, PMESN的实验设计成功率是$ 81\% $, 大约是OESN的2倍, 这表示PMESN具有较高的鲁棒性.

      图  3  基于PMESN和OESN的含噪声的Lorenz时间序列预测结果

      Figure 3.  Prediction results based on PMESN and OESN for Lorenz time series with noise

      图  4  基于PMESN和OESN的含噪声的Lorenz时间序列的模型设计成功率

      Figure 4.  Successful design ratio based on PMESN and OESN for Lorenz time series with noise

      表 4  基于不同模型的含噪声的Lorenz时间序列预测的参数和仿真结果对比

      Table 4.  Comparison of some parameters and simulation results of different models for Lorenz time series with noise

      网络模型 储备池
      初始规模
      储备池
      最终规模
      谱半径 稀疏度 网络规模适
      应度阈值
      训练时间(s) NRMSE
      平均值 标准差
      PMESN 500 285 0.8500 0.0100 0.4 28.85 4.01 × 10-3 3.64 × 10-4
      OESN[1] 500 500 0.8500 0.0500 - 25.32 8.38 × 10-3 6.38 × 10-4
      SCR[8] 500 500 0.8000 0.0020 - 22.15 8.28 × 10-3 8.16 × 10-4
      DESN[9] 500 500 0.8000 0.0238 - 27.35 9.12 × 10-3 9.43 × 10-4
      GESN[6] 50 400 0.9236 0.0200 - 81.35 3.96× 10-3 4.15 × 10-4
      SIPA-SCR[11] 500 463 0.8500 0.0020 - 41.39 5.65 × 10-3 5.68 × 10-4
      AEESN[13] 500 385 0.8500 0.0500 - 31.39 5.31 × 10-3 5.06 × 10-4
      “–”表示原文献中无此参数
    • 系统辨识是现代控制论和信号处理的重要内容, 系统的动态特性被认为表现在变化的输入输出数据中.而实际系统大都是非线性的, 因此非线性系统辨识成为一个重要而复杂的问题.非线性系统是系统辨识的标杆问题, 具有大时延、非线性动态的特点, 常用于检验神经网络的建模能力, 其数学模型由式(20)给出[19-20], 其中, 训练阶段的输入$ u(t) = 1.05\times {\rm sin}(t/45) $, 输出的初始值$ y(1) = y(2) = y(3) = y(4) = 0 $, 测试阶段的输入如式(21)所示.

      $$ \begin{equation} \begin{aligned} y(t+1) = \, & 0.72y(t)+0.025y(t-1)u(t-1)+\\ &0.01u^2(t-2)+0.2u(t-3) \end{aligned} \end{equation} $$ (20)
      $$ \begin{equation} u(t) = \begin{cases} {\sin\left(\dfrac{\pi t}{25}\right), } \!\!& \!\! 0<t<250 \\ {1.0, } \!\!& \!\! 250\leq t<500 \\ {-1.0, } \!\!& \! \! 500\leq t<750 \\ {0.6\left(\dfrac{\pi t}{10}\right)+0.1\left(\dfrac{\pi t}{32} \right)}+ \!& \! \\ 0.3\sin\left(\dfrac{\pi t}{25}\right), \!\!& \!\! 750\leq t<1, 000 \\ \end{cases} \end{equation} $$ (21)

      非线性系统通过$ [u(t), y(t)]^{\rm T} $来预测输出$ y(t+1) $.训练样本数为1 000, 其中训练样本数据集的丢弃点数为200.测试样本数为1 000.同时, 为了验证实验的可靠性, 数据样本叠加均匀分布在区间$ [-0.001, 0.001] $上的随机噪声.

      在相同条件下, 进行独立仿真20次, 详细的参数设置及实验比对结果如表 5所示, 包括储备池初始规模、储备池最终规模、谱半径、稀疏度、网络规模适应度阈值、训练时间、测试NRMSE.由表 5可以看出, PMESN具有紧凑的网络结构, 虽然训练时间不是最快的, 但是具有相对较高的测试精度. 图 5给出了PMESN及OESN对含噪声的非线性系统辨识的预测输出及预测误差, 由图 5可以看出PMESN具有较好的网络性能. 图 6给出了基于PMESN和OESN的含噪声的非线性系统辨识的模型设计成功率, 当阈值为0.03时, PMESN的实验设计成功率大约是OESN的4倍, 这说明PMESN的鲁棒性较好.

      图  5  基于PMESN和OESN的含噪声的非线性系统辨识预测结果

      Figure 5.  Prediction results based on PMESN and OESN for nonlinear system identification with noise

      图  6  基于PMESN和OESN的含噪声的非线性系统辨识的模型设计成功率

      Figure 6.  Successful design ratio based on PMESN and OESN for nonlinear system identification with noise

      表 5  基于不同模型的含噪声的非线性系统辨识的参数和仿真结果对比

      Table 5.  Comparison of some parameters and simulation results of different models for nonlinear system identification with noise

      网络模型 储备池
      初始规模
      储备池
      最终规模
      谱半径 稀疏度 网络规模适
      应度阈值
      训练时间(s) NRMSE
      平均值 标准差
      PMESN 500 245 0.8500 0.0100 0.5 39.88 0.0359 0.0020
      OESN[1] 500 500 0.8500 0.0500 - 34.46 0.0723 0.0023
      SCR[8] 500 500 0.8000 0.0020 - 29.86 0.0692 0.0021
      DESN[9] 500 500 0.8000 0.0238 - 36.85 0.0812 0.0022
      GESN[6] 50 400 0.9236 0.0200 - 83.69 0.0436 0.0019
      SIPA-SCR[11] 500 445 0.8500 0.0020 - 45.66 0.0582 0.0024
      AEESN[13] 500 376 0.8500 0.0500 - 37.79 0.0519 0.0018
      “–”表示原文献中无此参数
    • 出水氨氮(Ammonia nitrogen, NH$ _4 $-N)浓度是评价污水处理过程出水水质的重要参数.然而, 出水NH$ _4 $-N浓度难以预测, 现有的检测仪存在成本昂贵, 维护费用高等问题[20-21].在本实验中, PMESN模型用于预测污水处理过程出水NH$ _4 $-N浓度值, 实验数据来源于北京某污水处理厂2016年6月1日到2017年5月31日期间的数据.选取易测变量作为模型输入变量, 易测变量有温度、出水pH值、出水氧化还原电位(Oxidation reduction potential, ORP)、溶解氧(Dissolved oxygen, DO)、总固体悬浮物(Total suspended solids, TSS).在剔除异常数据后, 得到2 029组数据样本并进行归一化处理, 前1 200组数据样本用于训练, 其中训练集中丢弃点的样本数为200, 后829组数据样本用于测试.

      在相同条件下, 进行20次独立仿真实验, 详细的参数设置和实验结果如表 6所示.由表 6可以看出PMESN储备池最终规模较小, 结构紧凑, 具有较好的泛化能力, 但是训练时间不是最快的. 图 7给出了出水NH$ _4 $-N浓度的预测结果图, 图 7说明PMESN具有较好的性能. 图 8给出了基于PMESN和OESN的模型设计成功率, 当阈值是0.1时, OESN的模型设计成功率是$ 30 \% $, 而PMESN的模型设计成功率是$ 80 \% $, 说明PMESN鲁棒性高.

      表 6  基于不同模型的出水NH4-N浓度预测的参数和仿真结果对比

      Table 6.  Comparison of some parameters and simulation results of different models for effluent NH4-N prediction

      网络模型 储备池
      初始规模
      储备池
      最终规模
      谱半径 稀疏度 网络规模适
      应度阈值
      训练时间(s) NRMSE
      平均值 标准差
      PMESN 500 255 0.8500 0.0100 0.4 38.83 0.2039 0.0198
      OESN[1] 500 500 0.8500 0.0500 - 32.19 0.3328 0.0232
      SCR[8] 500 500 0.8000 0.0020 - 29.86 0.2938 0.0286
      DESN[9] 500 500 0.8000 0.0238 - 35.92 0.3426 0.0312
      GESN[6] 50 400 0.9236 0.0200 - 91.08 0.2236 0.0022
      SIPA-SCR[11] 500 458 0.8500 0.0020 - 44.26 0.2935 0.0301
      AEESN[13] 500 365 0.8500 0.0500 - 39.33 0.2899 0.0268
      “–”表示原文献中无此参数

      图  7  基于PMESN和OESN的出水NH4-N浓度预测结果

      Figure 7.  Prediction results based on PMESN and OESN for effluent NH4-N prediction

      图  8  基于PMESN和OESN的出水NH4-N浓度预测的模型设计成功率

      Figure 8.  Successful design ratio based on PMESN and OESN for effluent NH4-N prediction

    • 本文针对回声状态网络的结构设计问题, 利用奇异值分解首先构造了具有多个相互独立的子储备池的模块化回声状态网络, 并给出了基于灵敏度分析的模块化回声状态网络的修剪算法PMESN.然后给出了学习残差对于子储备池模块的灵敏度的计算方法, 并用灵敏度定义了网络规模适应度. PMESN根据灵敏度大小对子储备池模块进行排序, 同时计算网络规模适应度, 并与网络规模适应度阈值对比, 确定与训练样本相匹配的网络规模.子储备池模块被删除后, 将被删除子模块的权值平均叠加到其他子模块的权值上, 使得被删除子储备池模块的样本信息得以保留, 从而得到较为紧凑的网络结构.在网络的修剪过程中, 回声状态特性可以得到保证, 不需要对权值进行缩放.实验结果说明, 所提出的算法在保证得到结构紧凑的神经网络的同时, 也达到了较高的测试精度, 并且具有较好的稳定性和良好的泛化能力.

参考文献 (21)

目录

    /

    返回文章
    返回