2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

利用深度卷积神经网络提高未知噪声下的语音增强性能

袁文浩 孙文珠 夏斌 欧世峰

袁文浩, 孙文珠, 夏斌, 欧世峰. 利用深度卷积神经网络提高未知噪声下的语音增强性能. 自动化学报, 2018, 44(4): 751-759. doi: 10.16383/j.aas.2018.c170001
引用本文: 袁文浩, 孙文珠, 夏斌, 欧世峰. 利用深度卷积神经网络提高未知噪声下的语音增强性能. 自动化学报, 2018, 44(4): 751-759. doi: 10.16383/j.aas.2018.c170001
YUAN Wen-Hao, SUN Wen-Zhu, XIA Bin, OU Shi-Feng. Improving Speech Enhancement in Unseen Noise Using Deep Convolutional Neural Network. ACTA AUTOMATICA SINICA, 2018, 44(4): 751-759. doi: 10.16383/j.aas.2018.c170001
Citation: YUAN Wen-Hao, SUN Wen-Zhu, XIA Bin, OU Shi-Feng. Improving Speech Enhancement in Unseen Noise Using Deep Convolutional Neural Network. ACTA AUTOMATICA SINICA, 2018, 44(4): 751-759. doi: 10.16383/j.aas.2018.c170001

利用深度卷积神经网络提高未知噪声下的语音增强性能


DOI: 10.16383/j.aas.2018.c170001
详细信息
    作者简介:

    孙文珠  博士, 山东理工大学计算机科学与技术学院讲师.主要研究方向为多媒体信号传输, 视频编码.E-mail:swz_lw@sina.com

    夏斌  博士, 山东理工大学计算机科学与技术学院副教授.主要研究方向为信号处理.E-mail:xiabin@sdut.edu.cn

    欧世峰  博士, 烟台大学光电信息科学技术学院副教授.主要研究方向为语音信号处理, 盲信号处理.E-mail:ousfeng@126.com

    通讯作者: 袁文浩  博士, 山东理工大学计算机科学与技术学院讲师.主要研究方向为语音信号处理, 语音增强.本文通信作者.E-mail:why_sdut@126.com
  • 基金项目:

    山东省自然科学基金 ZR2014FM007

    国家自然科学基金 61473179

    国家自然科学基金 61701286

    山东省自然科学基金 ZR2015FL003

    山东省自然科学基金 ZR2017MF047

Improving Speech Enhancement in Unseen Noise Using Deep Convolutional Neural Network

More Information
    Author Bio:

     Ph. D., lecturer at the College of Computer Science and Technology, Shandong University of Technology. His research interest covers multimedia signal processing and video coding

     Ph. D., associate professor at the College of Computer Science and Technology, Shandong University of Technology. His main research interest is signal processing

     Ph. D., associate professor at the Institute of Science and Technology for Opto-electronic Information, Yantai University. His research interest covers speech signal processing and blind source separation

    Corresponding author: YUAN Wen-Hao  Ph. D., lecturer at the College of Computer Science and Technology, Shandong University of Technology. His research interest covers speech signal processing and speech enhancement. Corresponding author of this paper
  • Fund Project:

    Shandong Provincial Natural Science Foundation of China ZR2014FM007

    National Natural Science Foundation of China 61473179

    National Natural Science Foundation of China 61701286

    Shandong Provincial Natural Science Foundation of China ZR2015FL003

    Shandong Provincial Natural Science Foundation of China ZR2017MF047

图(11) / 表(3)
计量
  • 文章访问数:  496
  • HTML全文浏览量:  119
  • PDF下载量:  1152
  • 被引次数: 0
出版历程
  • 收稿日期:  2017-01-03
  • 录用日期:  2017-07-18
  • 刊出日期:  2018-04-20

利用深度卷积神经网络提高未知噪声下的语音增强性能

doi: 10.16383/j.aas.2018.c170001
    作者简介:

    孙文珠  博士, 山东理工大学计算机科学与技术学院讲师.主要研究方向为多媒体信号传输, 视频编码.E-mail:swz_lw@sina.com

    夏斌  博士, 山东理工大学计算机科学与技术学院副教授.主要研究方向为信号处理.E-mail:xiabin@sdut.edu.cn

    欧世峰  博士, 烟台大学光电信息科学技术学院副教授.主要研究方向为语音信号处理, 盲信号处理.E-mail:ousfeng@126.com

    通讯作者: 袁文浩  博士, 山东理工大学计算机科学与技术学院讲师.主要研究方向为语音信号处理, 语音增强.本文通信作者.E-mail:why_sdut@126.com
基金项目:

山东省自然科学基金 ZR2014FM007

国家自然科学基金 61473179

国家自然科学基金 61701286

山东省自然科学基金 ZR2015FL003

山东省自然科学基金 ZR2017MF047

摘要: 为了进一步提高基于深度学习的语音增强方法在未知噪声下的性能,本文从神经网络的结构出发展开研究.基于在时间与频率两个维度上,语音和噪声信号的局部特征都具有强相关性的特点,采用深度卷积神经网络(Deep convolutional neural network,DCNN)建模来表示含噪语音和纯净语音之间的复杂非线性关系.通过设计有效的训练特征和训练目标,并建立合理的网络结构,提出了基于深度卷积神经网络的语音增强方法.实验结果表明,在未知噪声条件下,本文方法相比基于深度神经网络(Deep neural network,DNN)的方法在语音质量和可懂度两种指标上都有明显提高.

本文责任编委 党建武

English Abstract

  • 语音增强是噪声环境下语音信号处理的必要环节[1].传统的基于统计的语音增强方法一般通过假设语音和噪声服从某种分布或者具有某些特性来从含噪语音中估计纯净语音, 这些方法对于平稳噪声具有较好的处理效果, 但在高度非平稳噪声和低信噪比情况下其处理性能将会急剧恶化[2-5].

    近年来, 深度学习成为了机器学习领域的研究热点, 深度神经网络(Deep neural network, DNN)在图像分类和语音识别领域的成功应用为解决复杂多变噪声环境下的语音增强问题提供了思路.与其他机器学习方法相比, 深度神经网络具有更加强大的学习能力, 通过使用大量纯净语音和含噪语音样本数据进行模型的训练, 能够有效提高语音增强方法对不同噪声的适应能力, 相比传统有监督方法具有更强的泛化能力, 对没有经过训练的未知噪声也有比较好的处理效果.基于深度神经网络的语音增强方法的有效性已在很多文献中得到证明, 文献[6]训练DNN作为一个二值分类器来估计含噪语音的IBM (Ideal binary mask), 克服了基于核函数的机器学习方法对大规模数据存在的计算复杂度难题, 提高了对未知噪声的适应能力, 取得了优于传统方法的语音增强性能.文献[7]采用更加有效的IRM (Ideal ratio mask)代替IBM作为训练目标, 并通过实验证明了相比其他方法, 基于深度神经网络的语音增强方法明显提高了增强语音的质量和可懂度.不同于上述方法中使用的基于掩蔽的训练目标, Xu等将纯净语音的对数功率谱(Logarithmic power spectra, LPS)作为训练目标, 以含噪语音的对数功率谱作为训练特征, 通过训练DNN得到一个高度非线性的回归函数, 来建立含噪语音对数功率谱与纯净语音对数功率谱之间的映射关系[8]; 并在文献[9]中采用Global variance equalization、Dropout training和Noise-aware training三种策略进一步改善该方法, 使其在低信噪比、非平稳噪声环境下的语音增强性能相比传统方法有了显著提升.为了在语音增强时充分考虑相位信息, 文献[10]提出了复数域的掩蔽目标cIRM (Complex IRM), 通过同时估计掩蔽目标的实部和虚部, 相比使用其他训练目标进一步提高了语音增强性能.

    除了设计不同的训练特征和训练目标, 提高未知噪声下语音增强性能的另外一种重要思路是提高训练集中噪声的多样性.文献[9, 11]分别采用包含104类和115类噪声的训练集, 提高了DNN对未知噪声的处理能力; 文献[12-13]更是通过训练包含10 000种不同噪声的DNN来提高对未知噪声的泛化能力, 主客观实验结果表明采用大数据量的训练集能显著提高未知噪声下的语音可懂度.另外, 与直接增加训练集噪声类型数量的方法不同, 文献[14]采用对有限种类的噪声施加不同的扰动项的方式来提高噪声特性的多样性, 实验结果表明该方法同样能有效提高DNN的泛化能力.

    上述基于深度神经网络的语音增强方法尽管在训练目标的设计、训练特征的选择以及训练集的规模上各有不同, 但是它们所采用的网络结构均是全连接的DNN.为了进一步提高未知噪声下的语音增强性能, 本文考虑使用深度学习的另外一种重要的网络结构---深度卷积神经网络(Deep convolutional neural network, DCNN)来进行语音增强.深度卷积神经网络在图像识别等分类任务上已经取得了巨大成功[15], 其在二维图像信号处理上相比DNN表现出了更好的性能.语音和噪声信号在时域的相邻帧和频域的相邻频带之间都具有很强的相关性, 因此在基于深度神经网络的语音增强方法中, 为了充分考虑时域和频域的上下文关系, 一般采用相邻多帧的特征作为网络的输入, 这种矩阵形式的输入在时间和频率两个维度上的局部相关性与图像中相邻像素之间的相关性非常类似.如图 1图 2所示, 假设使用连续5帧的对数功率谱作为网络的输入, 当网络结构为全连接的DNN时, 由于其输入层只有一个维度, 因此要将包含时频结构信息的矩阵转换为向量作为输入; 而当网络结构为DCNN时, 则可以直接使用矩阵作为输入, 不破坏时频结构.可见, 得益于DCNN在二维平面上的局部连接特性, 使其相比DNN能够更好地表达网络输入在时间和频率两个维度的内在联系, 因而在语音增强时能够更充分地利用语音和噪声信号的时频相关性.另外, DCNN通过权值共享极大减少了神经网络需要训练的参数的个数, 具有更好的泛化能力, 对未训练噪声理论上应该有更好的处理性能.

    图  1  DNN结构示意图

    Figure 1.  Schematic diagram of DNN

    图  2  DCNN结构示意图

    Figure 2.  Schematic diagram of DCNN

    实际上, 对于语音信号处理, CNN (Convolutional neural network)以及DCNN已经在语音识别任务中得到成功应用, 取得了超越DNN/HMM系统的语音识别性能, 证明了其对于语音信号同样具有较好的特征提取能力[16-18], 文献[19-23]更是采用极深层的卷积神经网络显著提高了语音识别性能.但是在语音识别任务中, DCNN的最后一层一般采用Softmax来预测状态概率, 因此本质上也是一个分类问题; 而基于深度神经网络的语音增强方法一般将语音增强归结为回归问题进行解决, 因此传统的网络结构并不适合.文献[24]以幅度谱向量作为训练特征和训练目标, 采用不包含全连接层的FCNN (Fully convolutional neural network)来进行语音增强, 虽然大幅度降低了训练参数的规模, 但是相比DNN并没有明显提高增强后语音的质量和可懂度; 文献[25]采用CNN对LPS特征进行建模, 通过同时学习纯净语音和信噪比, 研究了SNR-aware算法对语音增强性能的影响, 但是并没有对不同网络结构的语音增强性能进行深入分析.为了提高语音增强性能, 特别是未知噪声下的语音增强性能, 本文通过对不同网络结构的语音增强性能进行对比与分析, 设计针对语音增强问题的合理DCNN网络结构, 提出基于深度卷积神经网络的语音增强方法; 最后通过实验度量增强语音的质量和可懂度, 对方法在未知噪声下的语音增强性能进行客观评价.

    • 假设含噪语音$y$由纯净语音$s$和加性噪声$d$组成,

      $$ \begin{equation} y = s + d \end{equation} $$ (1)

      语音增强的目的就是在已知$y$的条件下得到$s$的估计值$\hat s$, 假设$y$, $s$和$\hat s$在第$n$帧的短时傅里叶变换(Short-time Fourier transform, STFT)形式分别为${Y_{n, k}}\exp ({\rm j}{\alpha _{n, k}})$, ${S_{n, k}}\exp ({\rm j}{\varphi _{n, k}})$和, 其中$k = 1, 2, \cdots, K$是频带序号, 忽略相位信息, 对第$n$帧的信号而言, STFT域上的语音增强任务就是最小化如下的误差函数

      $$ \begin{equation} Er = \sum\limits_{k = 1}^K {{{\left( {{{\hat S}_{n, k}} - {S_{n, k}}} \right)}^2}} \end{equation} $$ (2)

      令${S_n}$和分别表示纯净语音第$n$帧的幅度谱向量及其估计值, 该误差函数可以改写为

      $$ \begin{equation} Er = \left\| {{{\hat S}_n} - {S_n}} \right\|_2^2 \end{equation} $$ (3)

      基于深度学习的语音增强的基本思想可以描述为:通过训练网络参数集合$\theta$构造一个高度复杂的非线性函数$f_{\theta}$, 使得误差函数

      $$ \begin{equation} Er = \left\| {{f_\theta }\left( {{X_n}} \right) - {S_n}} \right\|_2^2 \end{equation} $$ (4)

      最小, 从而得到目标输出

      $$ \begin{equation} {\hat S_n} = {f_\theta }\left( {{X_n}} \right) \end{equation} $$ (5)

      其中

      $$ \begin{equation} {X_n} = [{Y_{n-N}}, {Y_{n-N + 1}}, \cdots, {Y_n}, \cdots, {Y_{n + N-1}}, {Y_{n + N}}] \end{equation} $$ (6)

      表示第$n$帧的训练特征, 由以第$n$帧为中心的共$(2N+1)$帧的含噪语音的幅度谱向量构成, $(2N+1)$即为输入窗长.

      为了构造类似于图像处理DCNN的网络输入, 同时在保证时域语音信号重构简单的前提下提高网络性能, 我们采用对数运算对$X_n$和$S_n$的范围进行缩放, 设计如下的训练特征和训练目标

      $$ \begin{equation} {Z_n} = \ln \left( {{X_n} + 1} \right) \end{equation} $$ (7)
      $$ \begin{equation} {T_n} = \ln \left( {{S_n} + 1} \right) \end{equation} $$ (8)

      其中, $Z_n$和$T_n$是幅度谱的变换形式, 且其值不小于0, 因此称其为非负对数幅度谱(Nonnegative logarithmic amplitude spectra, NLAS).

      DCNN采用小批量梯度下降法进行训练, 本文使用的损失函数定义为

      $$ \begin{equation} L(\theta ) = \frac{1}{M}\sum\limits_{n = 1}^M {\left\| {{f_\theta }\left( {{Z_n}} \right) - {T_n}} \right\|_2^2} \end{equation} $$ (9)

      其中, $M$代表网络训练所采用的Mini-batch的大小.

      网络训练完成后, 在进行语音增强时, 对第$n$帧的纯净语音$s_n$, 使用训练目标的估计值与含噪语音第$n$帧的相位谱向量${\alpha _n}$进行时域信号的重构

      $$ \begin{equation}\label{eq7} \begin{aligned} {\hat s_n} =\,&{\rm{ISTFT}}({\hat S_n}\exp ({\rm j}{\hat \varphi _n}))= \\& {\rm{ISTFT((exp(}}{\hat T_n}{\rm{) - 1)}}\exp ({\rm j}{\alpha _n}){\rm{)}} \end{aligned} \end{equation} $$ (10)

      ${\hat s_n}$即为增强后的语音信号.

    • 借鉴在图像识别中使用的典型DCNN的结构, 依据本文所采用的训练特征和训练目标, 构造如图 3所示的DCNN.可见, 本文设计的网络结构与典型DCNN的最大不同在于最后几层全连接层的设计, 典型DCNN在全连接层后要经过一个Softmax层来计算分类结果, 而本文网络则是直接通过全连接层计算目标向量.更深的网络结构、更多的节点数量或滤波器数量能够提高网络的性能, 但同时也增加了网络的复杂程度和训练难度, 对于本文实验, 依据训练集的数据规模, 通过权衡网络性能及训练难度之间的关系, 我们采用了包含3个卷积层和2个全连接层的网络结构, 其中全连接层的节点数量设为1 024, 卷积层滤波器的个数除第一层为64外, 其余设为128.

      图  3  本文DCNN的结构框图

      Figure 3.  Structure diagram of the proposed DCNN

      具体的网络结构设计如下:

      1) 输入层

      网络的输入是多帧非负对数幅度谱向量构成的特征矩阵.

      2) 卷积层

      本文网络包含3个卷积层, 第一层采用的卷积滤波器大小为$7 \times 7$, 其余两层的滤波器大小为$3 \times 3$, 步长均设为$1 \times 1$.

      3) Batch normalization层

      在每个卷积层和激活函数层之间都有一个Batch normalization层.

      4) 池化层

      3个激活函数层后是3个池化层, 均采用Max-pooling, 滤波器大小$3 \times 3$, 步长为$2 \times 2$.

      5) 全连接层

      3个卷积层之后是2个全连接层(Fully connected)和2个激活函数层.

      6) 输出层

      网络的最后一层是129个节点的全连接层, 对应129维的目标输出.

    • 实验所用的纯净语音全部来自TIMIT语音数据库[26], 所用的噪声包含俄亥俄州立大学Perception and Neurodynamics实验室的100类噪声[27], 以及文献[11]中的15类噪声.语音和噪声信号的采样频率均转换为8 kHz, 短时傅里叶变换的帧长为32 ms (256点), 帧移为16 ms (128点), 相应的非负对数幅度谱特征向量和训练目标的维度为129.训练集由100 000段含噪语音(约80小时)构成, 使用TIMIT语音库的Training集的4 620段纯净语音和115类噪声按照$-5$ dB、0 dB、5 dB、10 dB和15 dB五种不同的信噪比合成得到.每段含噪语音的具体合成方法如下:每次从4 620段纯净语音中随机选取1段, 并从115类噪声中随机选取1类, 然后将该类噪声的随机截取片段按照从5种信噪比中随机选取的1种混入语音中.测试集采用TIMIT语音库的Core test集的192段语音合成, 噪声数据采用来自Noisex92噪声库的与训练集噪声完全不同的4类未知噪声[28], 分别是Factory2、Buccaneer1、Destroyer engine、HF channel噪声.对于每一类噪声, 将192段语音分别按照$-5$ dB、0 dB和5 dB的全局信噪比与该类噪声的随机截取片段进行混合, 4类噪声合成的测试集总共包含2 304 (192 $\times$ 3 $\times$ 4)段含噪语音.

      本文通过对增强语音进行客观评价来比较不同方法的语音增强性能, 主要采用PESQ (Perceptual evaluation of speech quality)作为指标来评价增强语音的质量[29], 并采用STOI (Short time objective intelligibility)作为指标来评价增强语音的可懂度[30]. PESQ即语音质量感知评估是ITU-T (国际电信联盟电信标准化部)推荐的语音质量评估指标, 其得分范围为-0.5~4.5, 越高的得分表示越高的语音质量. STOI即短时客观可懂度, 则主要衡量语音的可懂度, 其得分范围为0~1, 越高的得分表示语音具有越好的可懂度.

      下面通过一系列实验对本文提出的DCNN的语音增强性能以及可能影响网络性能的关键因素进行分析.

    • 为了验证本文所提出的DCNN在语音增强中的有效性, 我们将其与DNN进行比较.作为对比的DNN具有5个隐层, 每个隐层有1 024个节点, 激活函数为ReLU; 为了防止过拟合, 提高泛化能力, 每个隐层后面均伴有一个Dropout层, Dropout的比例为0.2. DNN和DCNN均采用式(7)定义的非负对数幅度谱作为训练目标, 并采用式(8)定义的训练特征作为网络的输入; 其中, 对于DCNN, 为了适应其网络结构, 输入窗长设为15帧; 对于DNN, 为了更好地进行对比, 其输入窗长分别设为与文献[9]相同的11帧(DNN_11F), 以及与DCNN相同的15帧(DNN_15F). mini-batch的大小均为128, 冲量因子均设为0.9, 迭代次数均为20.本文的所有网络均使用微软的Cognitive Toolkit进行训练[31].

      首先通过比较DNN和DCNN的训练误差和测试误差来分析两种网络的性能, 图 4给出了不同训练阶段所对应的训练集和测试集的均方误差, 可见, 两种DNN在训练集和测试集上的均方误差(MSE)都十分接近, 这表明两种DNN具有相似的语音增强性能; 而DCNN在训练集和测试集上的均方误差都要明显小于两种DNN, 表明DCNN具有更好的语音增强性能.

      图  4  两种网络的训练误差和测试误差

      Figure 4.  Training error and testing error of two networks

      为了进一步比较DNN和DCNN的语音增强性能, 我们对测试集含噪语音通过三种方法进行增强后得到的增强语音的平均语音质量和可懂度进行比较, 表 1表 2分别给出了在4类不同噪声和3种不同信噪比下增强语音的平均PESQ和STOI得分, 并给出了未处理的含噪语音的平均PESQ和STOI得分作为对比.可见, 通过采用多类噪声进行训练, 对于4种未经训练的噪声类型, 两种方法均能有效提升语音质量和可懂度, 并且在两种不同的指标中, DCNN在不同噪声类型和不同信噪比条件下均取得了优于两种DNN的结果.

      表 1  三种方法的平均PESQ得分

      Table 1.  The average PESQ score for three methods

      噪声类型信噪比
      (dB)
      含噪语音DNN_11FDNN_15FDCNN
      Factory2-51.732.252.27 ${\bf 2.33}$
      02.072.572.58 ${\bf 2.65}$
      52.402.832.82 ${\bf 2.89}$
      Buccaneer1-51.361.881.92 ${\bf 1.93}$
      01.632.242.26 ${\bf 2.27}$
      51.952.542.54 ${\bf 2.56} $
      Destroyer engine-51.592.011.99 ${\bf 2.15} $
      01.812.272.26 ${\bf 2.46}$
      52.102.532.55$ {\bf 2.76}$
      HF channel-51.361.71.71 ${\bf 2.03} $
      01.582.042.06 ${\bf 2.37}$
      51.852.382.39 ${\bf 2.65}$

      表 2  三种方法的平均STOI得分

      Table 2.  The average STOI score for three methods

      噪声类型信噪比
      (dB)
      含噪语音DNN_11F DNN_15F DCNN
      Factory2-50.650.760.76${\bf 0.78 }$
      00.760.850.84${\bf 0.86 } $
      50.850.890.89${\bf 0.91 }$
      Buccaneer1-50.510.660.66${\bf 0.68 }$
      00.630.770.77${\bf 0.78 }$
      50.750.850.85${\bf 0.86 }$
      Destroyer engine-50.570.620.63${\bf 0.70 }$
      00.690.750.75${\bf 0.82 }$
      50.810.850.85${\bf 0.90 }$
      HF channel-50.570.690.69${\bf 0.73 }$
      00.690.780.79${\bf 0.82 }$
      50.800.860.86${\bf 0.88 }$

      另外, 我们还在表 3给出了含噪语音和增强语音的分段信噪比(Segmental SNR, SegSNR), 分段信噪比同样是衡量语音质量的重要指标, 它比全局信噪比更接近实际的语音质量; 分段信噪比越大, 代表主观的语音质量越好.与PESQ和STOI指标下的结果一致, 采用DCNN增强后的语音取得了最佳的分段信噪比.值得注意的是, 两种DNN在三种指标下都取得了非常相近的结果, 这与文献[9]的描述是一致的.

      表 3  三种方法的平均SegSNR

      Table 3.  The average SegSNR for three methods

      噪声类型信噪比
      (dB)
      含噪语音
      (dB)
      DNN_11F
      (dB)
      DNN_15F
      (dB)
      DCNN
      (dB)
      Factory2-5-6.90-0.69-0.59-0.05
      0-4.500.340.420.95
      5-1.571.241.291.80
      Buccaneer1-5-7.21-1.52-1.40-0.96
      0-4.90-0.50-0.390.11
      5-2.030.460.531.03
      Destroyer engine-5-7.15-2.86-2.81-2.16
      0-4.90-1.37-1.24-0.54
      5-1.910.040.210.89
      HF channel-5-7.24-1.13-1.210.35
      0-4.910.05-0.021.34
      5-2.091.041.022.03

      为了更加直观地比较两种方法的语音增强性能, 我们分别采用三种方法对一段含有Factory2噪声信噪比为$-5$ dB的含噪语音进行语音增强, 然后比较其增强语音的语谱图. 图 5(a)(b)分别给出了含噪语音与其相应的纯净语音的语谱图, 图 5(c)~(e)则分别给出了采用DNN_11F、DNN_15F以及DCNN增强后语音的语谱图.可以看到, DCNN增强后语音的残留噪声成分更少, 语音的纯净度更高, 其语谱图与纯净语音的语谱图更加接近.

      图  5  $-5$ dB的Factory2噪声下的增强语音语谱图示例

      Figure 5.  An example of spectrogram of enhanced speech under Factory2 noise at $-5$ dB SNR

    • 对于图像和语音这种具有局部强相关性的信号, 卷积层具有很好的特征提取能力, 但是由于语音增强是一个回归问题, 网络的最后输出对应的是纯净语音的功率谱, 所以还需要通过全连接层来进行数据的拟合.在本文使用的网络结构中, 不同的卷积层和全连接层的数量会带来网络性能的差别, 图 6给出了不同网络配置下增强后语音的平均PESQ得分提升和平均STOI得分提升.可见, 当网络包含3个卷积层和2个全连接层时, 在3种不同的信噪比下两种指标都得到了最高的提升值, 表明该网络结构具有最好的语音增强性能.

      图  6  卷积层数量对网络性能的影响

      Figure 6.  The influence of the number of convolutional layers on the network performance

    • Max-pooling的直接作用是通过选取特征的局部最大值达到降低特征维度的目的.在含噪语音功率谱的相邻时频单元中, 局部最大值一般含有语音成分, 而局部最小值一般为噪声成分, 传统的基于最小统计的噪声估计方法正是基于此原则.因此, 池化层的存在将对时频单元起到一定的筛选作用, 能够通过筛掉局部较小值达到抑制噪声成分的目的.

      为了检验池化层对于网络性能的影响, 我们将卷积层的步长设为2, 并去掉池化层, 训练得到不含池化层的网络模型. 图 7给出了不同信噪比下包含池化层(Max-pooling)和不含池化层(No pooling)的网络增强后语音的平均PESQ得分提升和平均STOI得分提升, 综合分析两种指标可知, 在较低信噪比的$-5$ dB和0 dB两种情况下, 包含池化层的网络的语音增强性能略好于不含池化层的网络.

      图  7  池化层对网络性能的影响

      Figure 7.  The influence of the pooling layers on the network performance

      通过对比两种网络增强后语音的语谱图来进一步观察池化层的影响, 图 8(a)图 8(b)分别给出了一段含有$-5$ dB的HF channel噪声的含噪语音与其相应的纯净语音的语谱图, 图 8(c)图 8(d)则分别给出了采用包含池化层和不含池化层的网络增强后语音的语谱图.由图 8可见, 与上述分析一致, 包含池化层的网络增强后语音的残留噪声明显少于不含池化层网络增强后语音, 表明Max-pooling的存在确实能带来更好的噪声抑制效果.

      图  8  $-5$ dB的HF channel噪声下的增强语音语谱图示例

      Figure 8.  An example of spectrogram of enhanced speech under HF channel noise at $-5$ dB SNR

    • Batch normalization是深度卷积神经网络中的常用技术, Batch normalization层的引入往往可以加快收敛过程, 提升训练速度, 并能防止过拟合.为了检验Batch normalization层对本文网络结构的影响, 我们去掉网络中的Batch normalization层, 训练得到不含Batch normalization层的网络模型. 图 9给出了不同信噪比下包含Batch normalization层(BN)和不含Batch normalization层(No BN)的网络增强后语音的平均PESQ得分提升和平均STOI得分提升, 在两种指标下, 不包含Batch normalization层的网络模型都略好于包含Batch normalization层的网络模型, 表明Batch normalization层的引入并没有提升本文网络结构的语音增强性能.可见, 对于本文相对简单的网络结构, Batch normalization并没有明显的作用, 可以去掉.

      图  9  Batch normalization层对网络性能的影响

      Figure 9.  The influence of the batch normalization layers on the network performance

    • 下面通过实验对文献[9]采用的LPS与本文采用的NLAS两种特征进行比较, 分别采用DNN和DCNN对两种特征进行训练.其中, 训练LPS的DNN (LPS-DNN)与训练NLAS的DNN (NLAS-DNN)均为与前文相似的包含5个隐层的DNN, 需要注意的是两种DNN采用的激活函数是Sigmoid函数, 因为在我们的实验中, 当训练特征为LPS时, 如果采用ReLU作为激活函数, 会造成训练过程不收敛; 训练LPS的DCNN (LPS-DCNN)与前文的NLAS-DCNN结构一致. 图 10分别给出了4种测试集噪声在不同信噪比下采用4种方法增强后语音的平均PESQ和STOI得分.可见, 在相同特征下, DCNN的语音增强性能明显好于DNN; 在相同的网络结构下, 采用NLAS特征训练得到的网络模型在3种不同信噪比下都取得了较好的语音可懂度, 并且在低信噪比(-5 dB)下取得了较好的语音质量, 表明NLAS特征能够更好地保留含噪语音中的语音成分, 更加适用于低信噪比下的语音增强.

      图  10  两种特征训练得到的DNN和DCNN的性能比较

      Figure 10.  The performance comparisons for DNN and DCNN trained using two kinds of feature

    • 为了进一步验证本文DCNN的语音增强性能, 将其与LSTM (Long-short term memory)以及文献[24]中的FCNN进行比较.其中LSTM包含5个隐层, Cell维度为256; FCNN包含16个卷积层, 每层滤波器的个数分别为: 10, 12, 14, 15, 19, 21, 23, 25, 23, 21, 19, 15, 14, 12, 10, 1. 图 11分别给出了各种方法增强后语音的平均PESQ、平均STOI和平均SegSNR, 同时给出DNN对应的结果作为对比.通过综合分析3种指标可知, DCNN取得了最佳的语音增强性能, LSTM次之, FCNN略好于DNN.

      图  11  两种特征训练得到的DNN和DCNN的性能比较

      Figure 11.  The performance comparisons for DNN and DCNN trained using two kinds of feature

    • 为了进一步提高未知噪声下的语音增强性能, 考虑DCNN相比DNN具有更好的局部特征表达能力, 能够更好地利用语音和噪声信号的时频相关性, 本文采用深度卷积神经网络建立回归模型来表达含噪语音和纯净语音之间的复杂非线性关系.通过使用非负对数幅度谱作为训练特征和训练目标, 设计与训练了不同结构的DCNN并对其语音增强性能进行了比较, 得到了适合于语音增强问题的合理网络结构, 提出了基于深度卷积神经网络的语音增强方法.实验结果表明, 在与DNN及其他方法的对比中, 本文提出的DCNN在测试集上取得了更小的误差, 表现出了更好的噪声抑制能力, 在各类噪声和各种信噪比条件下都显著提升了增强后语音的语音质量和可懂度, 进一步提高了未知噪声下的语音增强性能.

参考文献 (31)

目录

    /

    返回文章
    返回