2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于声学特征空间非线性流形结构的语音识别声学模型

张文林 牛铜 屈丹 李弼程 裴喜龙

张文林, 牛铜, 屈丹, 李弼程, 裴喜龙. 基于声学特征空间非线性流形结构的语音识别声学模型. 自动化学报, 2015, 41(5): 1024-1033. doi: 10.16383/j.aas.2015.c140399
引用本文: 张文林, 牛铜, 屈丹, 李弼程, 裴喜龙. 基于声学特征空间非线性流形结构的语音识别声学模型. 自动化学报, 2015, 41(5): 1024-1033. doi: 10.16383/j.aas.2015.c140399
ZHANG Wen-Lin, NIU Tong, QU Dan, LI Bi-Cheng, PEI Xi-Long. Feature Space Nonlinear Manifold Based Acoustic Model for Speech Recognition. ACTA AUTOMATICA SINICA, 2015, 41(5): 1024-1033. doi: 10.16383/j.aas.2015.c140399
Citation: ZHANG Wen-Lin, NIU Tong, QU Dan, LI Bi-Cheng, PEI Xi-Long. Feature Space Nonlinear Manifold Based Acoustic Model for Speech Recognition. ACTA AUTOMATICA SINICA, 2015, 41(5): 1024-1033. doi: 10.16383/j.aas.2015.c140399

基于声学特征空间非线性流形结构的语音识别声学模型


DOI: 10.16383/j.aas.2015.c140399
详细信息
    作者简介:

    牛铜 中国人民解放军信息工程大学信息系统工程学院博士研究生. 主要研究方向为语音增强, 语音识别.E-mail: niutong0072@gmail.com

    通讯作者: 张文林 中国人民解放军信息工程大学信息系统工程学院讲师. 2013 年获解放军信息工程大学博士学位. 主要研究方向为语音信号处理, 语音识别, 机器学习等. E-mail: zwlin 2004@163.com
  • 基金项目:

    国家自然科学基金(61403415, 61175017)资助

Feature Space Nonlinear Manifold Based Acoustic Model for Speech Recognition

More Information
  • Fund Project:

    Supported by National Natural Science Foundation of China (61403415, 61175017)

  • 摘要: 从语音信号声学特征空间的非线性流形结构特点出发, 利用流形上的压缩感知原理, 构建新的语音识别声学模型. 将特征空间划分为多个局部区域, 对每个局部区域用一个低维的因子分析模型进行近似, 从而得到混合因子分析模型. 将上下文相关状态的观测矢量限定在该非线性低维流形结构上, 推导得到其观测概率模型. 最终, 每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定. 文中给出了局部区域潜在维数的确定准则及模型参数的迭代估计算法. 基于RM语料库的连续语音识别实验表明, 相比于传统的高斯混合模型(Gaussian mixture model, GMM)和子空间高斯混合模型(Subspace Gaussian mixture model, SGMM), 新声学模型在测试集上的平均词错误率(Word error rate, WER)分别相对下降了33.1%和9.2%.
  • [1] Olsen P A, Gopinath R A. Modeling inverse covariance matrices by basis expansion. IEEE Transactions on Speech and Audio Processing, 2004, 12(1): 37-46
    [2] [2] Ko T, Mak B. Eigentriphones for context-dependent acoustic modeling. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(6): 1285-1294
    [3] [3] Ko T, Mak B. Eigentrigraphemes for under-resourced languages. Speech Communication, 2014, 56: 132-141
    [4] [4] Povey D, Burget L, Agarwal M, Akyazi P, Kai F, Ghoshal A, Glembek O, Goel N, Karafit M, Rastrow A, Rose R C, Schwarz P, Thomas S. The subspace Gaussian mixture model a structured model for speech recognition. Computer Speech Language, 2011, 25(2): 404-439
    [5] [5] Qi J, Wang D, Tejedor J. Subspace models for bottleneck features. In: Proceedings of the 14th Annual Conference of the International Speech Communication Association. Lyon, France: ISCA, 2013. 1746-1750
    [6] [6] Motlcek P, Imseng D, Garner P N. Crosslingual tandem-SGMM: exploiting out-of-language data for acoustic model and feature level adaptation. In: Proceedings of the 14th Annual Conference of the International Speech Communication Association. Lyon, France: ISCA, 2013. 510-514
    [7] [7] Lu L, Ghoshal A, Renals S. Cross-lingual subspace Gaussian mixture models for low-resource speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(1): 17-27
    [8] [8] Saon G, Chien J T. Bayesian sensing hidden Markov models. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 43-54
    [9] [9] Zhang W B, Fung P. Sparse inverse covariance matrices for low resource speech recognition. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(3): 659-668
    [10] Zhang W B, Fung P. Discriminatively trained sparse inverse covariance matrices for speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(5): 873-882
    [11] Jansen A, Niyogi P. Intrinsic Fourier analysis on the manifold of speech sounds. In: Proceedings of the 2006 International Conference on Acoustics, Speech, and Signal Processing. Toulouse: IEEE, 2006. 1: 241-244
    [12] Lu X G, Dang J W. Vowel production manifold: intrinsic factor analysis of vowel articulation. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(5): 1053-1062
    [13] Ghahramani Z, Hinton G. The EM Algorithm for Mixtures of Factor Analyzers, Technical Report CRG-TR-96-1, Department of Computer Science, University of Toronto, Toronto, Canada, 1996.
    [14] Carin L, Baraniuk R G, Cevher V, Dunson D, Jordan M I, Sapiro G, Wakin M B. Learning low-dimensional signal models. IEEE Signal Processing Magazine, 2011, 28(2): 39-51
    [15] Chen M H, Silva J, Paisley J, Wang C P, Dunson D, Carin L. Compressive sensing on manifolds using a nonparametric mixture of factor analyzers: algorithm and performance bounds. IEEE Transactions on Signal Processing, 2010, 58(12): 6140-6155
    [16] Bishop C M. Pattern Recognition and Machine Learning. New York: Springer Science+Business Media, 2006. 90-93
    [17] Povey D, Ghoshal A, Boulianne G, Burget L, Glembek O, Goel N, Hannemann M, Motlicek P, Qian Y M, Schwarz P, Silovsky J, Stemmer G, Vesely K. The Kaldi speech recognition toolkit. In: Proceedings of the 2011 IEEE Workshop on Automatic Speech Recognition and Understanding. Hawaii, US: IEEE, 2011.
    [18] Zibulevsky M, Elad M. L1-L2 optimization in signal and image processing. IEEE Signal Processing Magazine, 2010, 27(3): 76-88
    [19] Riedhammer K, Bocklet T, Ghoshal A, Povey D. Revisiting semi-continuous hidden Markov models. In: Proceedings of the 2012 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Kyoto: IEEE, 2012. 4721-4724
  • [1] 黄雅婷, 石晶, 许家铭, 徐波. 鸡尾酒会问题与相关听觉模型的研究现状与展望[J]. 自动化学报, 2019, 45(2): 234-251. doi: 10.16383/j.aas.c180674
    [2] 张一珂, 张鹏远, 颜永红. 基于对抗训练策略的语言模型数据增强技术[J]. 自动化学报, 2018, 44(5): 891-900. doi: 10.16383/j.aas.2018.c170464
    [3] 陈斌, 牛铜, 张连海, 李弼程, 屈丹. 声学模型区分性训练中的动态加权数据选取方法[J]. 自动化学报, 2014, 40(12): 2899-2907. doi: 10.3724/SP.J.1004.2014.02899
    [4] 陈斌, 张连海, 牛铜, 屈丹, 李弼程. 基于MCE准则的语音识别特征线性判别分析[J]. 自动化学报, 2014, 40(6): 1208-1215. doi: 10.3724/SP.J.1004.2014.01208
    [5] 张文林, 张连海, 牛铜, 屈丹, 李弼程. 基于正则化的本征音说话人自适应方法[J]. 自动化学报, 2012, 38(12): 1950-1957. doi: 10.3724/SP.J.1004.2012.01950
    [6] 单煜翔, 邓妍, 刘加. 一种联合语种识别的新型大词汇量连续语音识别算法[J]. 自动化学报, 2012, 38(3): 366-374. doi: 10.3724/SP.J.1004.2012.00366
    [7] 单煜翔, 陈谐, 史永哲, 刘加. 基于扩展N元文法模型的快速语言模型预测算法[J]. 自动化学报, 2012, 38(10): 1618-1626. doi: 10.3724/SP.J.1004.2012.01618
    [8] 黄浩, 李兵虎, 吾守尔·斯拉木. 区分性模型组合中基于决策树的声学上下文建模方法[J]. 自动化学报, 2012, 38(9): 1449-1458. doi: 10.3724/SP.J.1004.2012.01449
    [9] 关勇, 李鹏, 刘文举, 徐波. 基于计算听觉场景分析和语者模型信息的语音识别鲁棒前端研究[J]. 自动化学报, 2009, 35(4): 410-416. doi: 10.3724/SP.J.1004.2008.00410
    [10] 郭武, 李轶杰, 戴礼荣, 王仁华. 说话人识别中的因子分析以及空间拼接[J]. 自动化学报, 2009, 35(9): 1193-1198. doi: 10.3724/SP.J.1004.2009.01193
    [11] 郭丽惠, 何昕, 张亚昕, 吕岳. 基于顺序统计滤波的实时语音端点检测算法[J]. 自动化学报, 2008, 34(4): 419-425. doi: 10.3724/SP.J.1004.2008.00419
    [12] 刘波, 戴礼荣, 王仁华, 杜俊, 李锦宇. 基于双高斯GMM的特征参数规整及其在语音识别中的应用[J]. 自动化学报, 2006, 32(4): 519-525.
    [13] 曹阳, 黄泰翼, 徐波. 基于统计方法的汉语连续语音中声调模式的研究[J]. 自动化学报, 2004, 30(2): 191-198.
    [14] 韩兆兵, 张树武, 徐波, 黄泰翼. 电话语音识别中统一的加性噪声和卷积噪声补偿算法[J]. 自动化学报, 2004, 30(2): 169-175.
    [15] 吕成国, 王承发, 李俊庆, 韩纪庆, 徐近霈. RASTA-PLP技术与谱减相结合的去噪方法[J]. 自动化学报, 2000, 26(5): 717-720.
    [16] 王轩, 王晓龙, 张凯. 语音识别中统计与规则结合的语言模型[J]. 自动化学报, 1999, 25(3): 309-315.
    [17] 韦岗, 张丽清, 李向武, 欧阳景正. 语音信号同伦非线性模型分析理论与算法[J]. 自动化学报, 1997, 23(2): 201-206.
    [18] 王仁华, 倪晋富. 汉语语音识别系统评估[J]. 自动化学报, 1994, 20(4): 509-511.
    [19] 谢锦辉, 高雨青. 关于HMM相对可靠性量度[J]. 自动化学报, 1993, 19(5): 637-640.
    [20] 王仁华, 夏德瑜, 倪晋富. 汉语语音识别数据库研制[J]. 自动化学报, 1992, 18(3): 376-378.
  • 加载中
计量
  • 文章访问数:  1010
  • HTML全文浏览量:  17
  • PDF下载量:  1188
  • 被引次数: 0
出版历程
  • 收稿日期:  2014-06-03
  • 修回日期:  2015-01-09
  • 刊出日期:  2015-05-20

基于声学特征空间非线性流形结构的语音识别声学模型

doi: 10.16383/j.aas.2015.c140399
    作者简介:

    牛铜 中国人民解放军信息工程大学信息系统工程学院博士研究生. 主要研究方向为语音增强, 语音识别.E-mail: niutong0072@gmail.com

    通讯作者: 张文林 中国人民解放军信息工程大学信息系统工程学院讲师. 2013 年获解放军信息工程大学博士学位. 主要研究方向为语音信号处理, 语音识别, 机器学习等. E-mail: zwlin 2004@163.com
基金项目:

国家自然科学基金(61403415, 61175017)资助

摘要: 从语音信号声学特征空间的非线性流形结构特点出发, 利用流形上的压缩感知原理, 构建新的语音识别声学模型. 将特征空间划分为多个局部区域, 对每个局部区域用一个低维的因子分析模型进行近似, 从而得到混合因子分析模型. 将上下文相关状态的观测矢量限定在该非线性低维流形结构上, 推导得到其观测概率模型. 最终, 每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定. 文中给出了局部区域潜在维数的确定准则及模型参数的迭代估计算法. 基于RM语料库的连续语音识别实验表明, 相比于传统的高斯混合模型(Gaussian mixture model, GMM)和子空间高斯混合模型(Subspace Gaussian mixture model, SGMM), 新声学模型在测试集上的平均词错误率(Word error rate, WER)分别相对下降了33.1%和9.2%.

English Abstract

参考文献 (19)

目录

    /

    返回文章
    返回