2.765

2022影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向汉语建模的自适应词表生成算法

肖镜辉 刘秉权 王晓龙

肖镜辉, 刘秉权, 王晓龙. 面向汉语建模的自适应词表生成算法. 自动化学报, 2008, 34(1): 40-47. doi: 10.3724/SP.J.1004.2008.00040
引用本文: 肖镜辉, 刘秉权, 王晓龙. 面向汉语建模的自适应词表生成算法. 自动化学报, 2008, 34(1): 40-47. doi: 10.3724/SP.J.1004.2008.00040
XIAO Jing-Hui, LIU Bing-Quan, WANG Xiao-Long. A Self-adaptive Lexicon Construction Algorithm for Chinese Language Modeling. ACTA AUTOMATICA SINICA, 2008, 34(1): 40-47. doi: 10.3724/SP.J.1004.2008.00040
Citation: XIAO Jing-Hui, LIU Bing-Quan, WANG Xiao-Long. A Self-adaptive Lexicon Construction Algorithm for Chinese Language Modeling. ACTA AUTOMATICA SINICA, 2008, 34(1): 40-47. doi: 10.3724/SP.J.1004.2008.00040

面向汉语建模的自适应词表生成算法

doi: 10.3724/SP.J.1004.2008.00040
详细信息
    通讯作者:

    肖镜辉

  • 中图分类号: TP391.12

A Self-adaptive Lexicon Construction Algorithm for Chinese Language Modeling

More Information
    Corresponding author: XIAO Jing-Hui
  • 摘要: 词表的质量直接影响汉语语言模型的性能, 而当前汉语词典编撰工作同语言建模工作相脱离, 一方面使得现有的汉语语言模型受词表规模所限, 性能不能发挥到最优, 另一方面因为缺乏专业领域的词表, 难以建立面向特定领域的语言模型. 本文旨在通过建立优化词表的方式来提高现有汉语语言模型的性能, 并使其自动适应训练语料的领域. 本文首先将词表自动生成工作同汉语语言建模工作相结合, 构建一体化迭代算法框架, 在自动生成优化词表的同时能够获得高性能的汉语语言模型. 在该框架下, 本文提出汉字构词强度的概念来描述汉语的词法信息, 并将其作为词法特征与统计特征相结合, 构造一种基于多特征的汉语词表自动生成算法. 最后, 本文提出两种启发式方法, 自动根据训练语料的特点调整系统中的各项参数, 使系统能够自动适应训练语料的领域. 实验表明, 本文的方法能够在生成高质量词表的同时获得高性能的语言模型, 并且能够有效自动适应训练语料的领域.
  • 加载中
计量
  • 文章访问数:  2722
  • HTML全文浏览量:  69
  • PDF下载量:  1493
  • 被引次数: 0
出版历程
  • 收稿日期:  2006-09-12
  • 修回日期:  2007-04-26
  • 刊出日期:  2008-01-20

目录

    /

    返回文章
    返回