
摘要
我们研究了一种统一的多任务框架在三项信息抽取任务中的能力:命名实体识别、关系抽取和事件抽取。该框架(称为DyGIE++)通过枚举、精炼和评分文本片段来捕捉句内(局部)和跨句(全局)上下文,从而完成所有任务。在来自多个领域的四个数据集上,该框架在所有任务中均取得了当前最优的性能表现。我们进行了实验,对比了多种构建片段表示的技术。结果显示,像BERT这样的上下文嵌入方法在捕捉同一句或相邻句中实体间关系方面表现优异,而动态片段图更新机制则能有效建模长距离的跨句关系。例如,通过预测的共指链接传播片段表示,可帮助模型有效消解具有挑战性的实体指代问题。相关代码已公开发布于 https://github.com/dwadden/dygiepp,可轻松适配至新的任务或数据集。