Command Palette
Search for a command to run...
BERT 获得了一个日期:将 Transformers 引入时间标注
BERT 获得了一个日期:将 Transformers 引入时间标注
Satya Almasian Dennis Aumiller Michael Gertz
摘要
时间表达式在文本理解中扮演着重要角色,准确识别这些表达式是各类信息检索与自然语言处理系统的基础。以往的研究逐渐从基于规则的方法转向神经网络架构,后者在时间表达式标注任务中展现出更高的准确率。然而,当前的神经模型在区分不同类型时间表达式方面,仍难以达到传统规则方法的水平。本文旨在识别最适合联合进行时间表达式标注与类型分类的Transformer架构,并探讨半监督训练对系统性能的影响。基于对多种token分类变体及编码器-解码器架构的深入研究,我们提出了一种基于RoBERTa语言模型的Transformer编码器-解码器模型,该模型在各项指标中表现最优。通过引入基于规则系统生成的弱标注数据作为补充训练资源,我们的模型在时间表达式标注与类型分类任务上均超越了现有方法,尤其在罕见类别上的表现显著提升。相关代码与预训练实验结果已公开,地址为:https://github.com/satya77/Transformer_Temporal_Tagger。