摘要: 事件抽取是一个历史悠久且极具挑战的研究任务, 近年来取得了大量优异成果. 由于事件抽取涉及的研究内容较多, 它们的目标和重心各不相同, 使得读者难以全面地了解事件抽取包含的研究任务、研究问题和未来热点趋势. 为此, 面向研究问题, 对基于深度学习的事件抽取研究成果进行整理. 首先, 界定事件相关概念, 论述事件抽取的研究任务, 明确各研究任务的目标, 再总结各任务上的代表性研究成果; 接着, 总结现有事件抽取成果主要致力于解决哪些方面研究问题, 分析为什么会存在这些问题, 分析为什么需要解决这些问题; 然后, 对各方面研究问题进行技术总结, 分析各自研究方案和研究推进过程; 最后, 讨论事件抽取的发展趋势.Abstract: Event extraction is a long-standing and challenging task in natural language processing and has achieved encouraging results. Given various research targets and concerns, it is difficult for readers to comprehensively understand the situations and trends of event extraction. Therefore, we review event extraction studies from the perspectives of research tasks, research issues and corresponding solving methods. Specifically, the event definition is discussed first, followed by an elaborate description and analysis for research tasks to clarify the targets of diverse research tasks. Meanwhile, the representative research achievements in various tasks are summarized. Then, the main aspects of research problems that existing event extraction achievements focus on addressing, why these problems exist, and why they need to be resolved, are analyzed. Subsequently, the technical line of each aspect is sorted out to investigate the development and advancement of each other. Finally, the future direction of event extraction is discussed.
Key words:
- Event extraction /
- research issue /
- research development and solutions /
- deep learning
表 1 各模型在ChFinAnn语料上各事件类型下的F1值 (%)
Table 1 F1 scores of models under each event type on ChFinAnn corpus (%)
模型 冻结 回购 减持 增持 质押 平均 DCFEE-O 51.1 83.1 45.3 46.6 63.9 58.0 DCFEE-M 45.6 80.8 44.2 44.9 62.9 55.7 GreedyDec 58.9 78.9 51.2 51.3 62.1 60.5 Doc2EDAG 70.2 87.3 71.8 75.0 77.3 76.3 GIT 73.4 90.8 74.3 76.3 77.7 78.5 DE-PPN 73.5 87.4 74.4 75.8 78.4 77.9 SCDEE 80.4 90.5 75.1 70.1 78.1 78.8 PTPCG 71.4 91.6 71.5 72.2 76.4 76.6 ReDEE 74.1 90.7 75.3 78.1 80.1 79.7 TER-MCEE 87.9 97.2 89.8 91.2 78.6 88.9 EDEE 97.4 90.3 93.2 93.4 96.2 94.1 ProCNet 75.7 93.7 76.0 72.0 81.3 79.7 表 2 处理训练语料不足问题的各方法比较
Table 2 Comparison of methods that handling the problem of insufficient training corpus
方法 本质 需要的数据 解决方式 远程监督 利用外部知识库扩展数据 少量标注数据 直接增加 半监督 少量标注训练模型预测大量无标签数据 少量标注数据加大量无标签数据 直接增加、不增加 无监督 直接根据数据特点或性质判断 大量无标签数据 不使用标注数据 自监督 从无标签数据中挖掘监督信息用于训练 大量无标签数据 不使用标注数据 弱监督 针对数据集不可靠情况, 包含3种典型情况 少量标注数据加大量无标签数据 直接增加 主动学习 通过机器学习挑选有用的样本给人工标注 少量标注数据加大量无标签数据 直接增加 强化学习 中途告知学习情况 大量无标签数据 无标注数据 元学习 通过多个任务的数据学习内涵/规律/学习的本领 其他任务或领域的数据 其他领域增加 迁移学习 其他任务/领域下的模型用于目标任务/领域 其他领域的大量数据 其他领域增加 小样本学习 一种任务, 小样本下学习本领 极少的标注数据 直接增加、间接增加、不增加、其他领域增加 零样本学习 一种任务, 零样本下学习本领 给出代表某一类物体语义的嵌入向量 不使用标注数据 -
