2.765

2022影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于总体变化子空间自适应的i-vector说话人识别系统研究

栗志意 张卫强 何亮 刘加

栗志意, 张卫强, 何亮, 刘加. 基于总体变化子空间自适应的i-vector说话人识别系统研究. 自动化学报, 2014, 40(8): 1836-1840. doi: 10.3724/SP.J.1004.2014.01836
引用本文: 栗志意, 张卫强, 何亮, 刘加. 基于总体变化子空间自适应的i-vector说话人识别系统研究. 自动化学报, 2014, 40(8): 1836-1840. doi: 10.3724/SP.J.1004.2014.01836
LI Zhi-Yi, ZHANG Wei-Qiang, HE Liang, LIU Jia. Total Variability Subspace Adaptation Based Speaker Recognition. ACTA AUTOMATICA SINICA, 2014, 40(8): 1836-1840. doi: 10.3724/SP.J.1004.2014.01836
Citation: LI Zhi-Yi, ZHANG Wei-Qiang, HE Liang, LIU Jia. Total Variability Subspace Adaptation Based Speaker Recognition. ACTA AUTOMATICA SINICA, 2014, 40(8): 1836-1840. doi: 10.3724/SP.J.1004.2014.01836

基于总体变化子空间自适应的i-vector说话人识别系统研究

doi: 10.3724/SP.J.1004.2014.01836
基金项目: 

国家自然科学基金(61370034,61273268,61005019,90920302),北京市自然科学基金项目(KZ201110005005) 资助

详细信息
    作者简介:

    张卫强 清华大学电子工程系助理研究员. 主要研究方向为说话人识别与语种识别. E-mail:wqzhang@tsinghua.edu.cn

    通讯作者:

    栗志意 清华大学电子工程系博士研究生. 主要研究方向为说话人识别与语种识别.E-mail:lizhiyi06@mails.tsinghua.edu.cn

  • 中图分类号: 10.3724/SP.J.1004.2014.01836

Total Variability Subspace Adaptation Based Speaker Recognition

Funds: 

Supported by National Natural Science Foundation of China (61370034, 61273268, 61005019, 90920302) and Beijing Natural Sci-ence Foundation (KZ201110005005)

  • 摘要: 在说话人识别研究中,基于身份认证矢量(identity vector,i-vector) 的子空间建模被证明是目前最前沿最有效的说话人建模技术,其中如何有效准确地估计总体变化子空间矩阵T 成为影响系统性能好坏的关键问题. 本文针对i-vector 技术如何在新的应用环境下进行总体变化子空间矩阵T 的自适应估计问题进行了研究,并提出了两种行之有效的自适应估计算法. 在由美国国家标准技术局(American NationalInstitute of Standard and Technology,NIST) 组织的2008 年说话人识别核心评测数据库以及自行采集的测试数据库上的实验结果显示,不论采用测试集数据本身还是与测试集较匹配的开发集数据,通过本文所提的自适应算法来更新总体变化子空间矩阵均可以使更新后的子空间更有利于新测试数据下的低维子空间描述,在新的测试环境下都更有利于说话人分类. 此外实验结果还表明基于多子空间拼接的子空间自适应方法性能明显优于迭代自适应方法,而且两者的结合可达到最优的识别性能,且此时利用开发集数据进行自适应可以接近其利用测试集数据进行自适应得到的最优性能.
  • [1] Kinnunen T, Li H Z. An overview of text-independent speaker recognition: from features to supervectors. Speech Communication, 2010, 52(1): 12-40
    [2] [2] Dehak N, Kenny P, Ouellet P, Dumouchel P. Front-end factor analysis for speaker verification. IEEE Transactions on Audio, Speech and Language Processing, 2011, 19(4): 788-798
    [3] Li Zhi-Yi, He Liang, Zhang Wei-Qiang, Liu Jia. Speaker recognition based on discriminant i-vector local distance preserving projection. Journal of Tsinghua University (Science and Technology), 2012, 52(5): 598-601 (栗志意, 何亮, 张卫强, 刘加. 基于鉴别性i-vector局部距离保持映射的说话人识别. 清华大学学报(自然科学版), 2012, 52(5): 598-601)
    [4] [4] Campbell W M, Campbell J P, Reynolds D A, Singer E, Torres-Carrasquillo P A. Support vector machines for speaker and language recognition. Computer Speech and Language, 2006, 20(2-3): 210-229
    [5] [5] Kenny P, Boulianne G, Ouellet P, Dumouchel P. Speaker and session variability in GMM-based speaker verification. IEEE Transactions on Audio, Speech and Language Processing, 2007, 15(4): 1448-1460
    [6] [6] Kenny P, Boulianne G, Ouellet P, Dumouchel P. Joint factor analysis versus eigenchannels in speaker recognition. IEEE Transactions on Audio, Speech and Language Processing, 2007, 15(4): 1435-1447
    [7] [7] Reynolds D A, Quatieri T F, Dunn R B. Speaker verification using adapted Gaussian mixture models. Digital Signal Processing, 2000, 10(1-3): 19-41
    [8] [8] Cortes C, Vapnik V. Support vector networks. Machine Learning, 1995, 20(3): 273-297
    [9] Zhang Wen-Lin, Zhang Wei-Qiang, Liu Jia, Li Bi-Cheng, Qu Dan. A new subspace based speaker adaptation method. Acta Automatica Sinica, 2011, 37(12): 1495-1502 (张文林, 张卫强, 刘加, 李弼程, 屈丹. 一种新的基于子空间的说话人自适应方法. 自动化学报, 2011, 37(12): 1495-1502)
    [10] Kenny P, Boulianne G, Dumouchel P. Eigenvoice modeling with sparse training data. IEEE Transactions on Audio, Speech, and Language Processing, 2005, 13(3): 345-354
    [11] Bishop C M. Pattern Recognition and Machine Learning. Berlin: Springer, 2008
    [12] Hatch A O, Kajarekar S, Stolcke A. Within-class covariance normalization for SVM-based speaker recognition. In: Proceedings of the International Conference on Spoken Language Processing. Pittsburgh, PA, 2006. 1471-1474
    [13] He Liang, Shi Yong-Zhe, Liu Jia. Eigenchannel space combination method of joint factor analysis Acta Automatica Sinica, 2011, 37(7): 849-856 (何亮, 史永哲, 刘加. 联合因子分析中的本征信道空间拼接方法. 自动化学报, 2011, 37(7): 849-856)
    [14] Guo Wu, Li Yi-Jie, Dai Li-Rong, Wang Ren-Hua. Factor analysis and space assembling in speaker recognition. Acta Automatica Sinica, 2009, 35(9): 1193-1198 (郭武, 李轶杰, 戴礼荣, 王仁华. 说话人识别中的因子分析以及空间拼接. 自动化学报, 2009, 35(9): 1193-1198)
  • 加载中
计量
  • 文章访问数:  3525
  • HTML全文浏览量:  117
  • PDF下载量:  2264
  • 被引次数: 0
出版历程
  • 收稿日期:  2013-11-13
  • 修回日期:  2013-11-23
  • 刊出日期:  2014-08-20

目录

    /

    返回文章
    返回