
摘要
文本中的时间表达在语言理解中起着重要作用,正确识别这些表达对于各种检索和自然语言处理系统至关重要。以往的研究逐渐从基于规则的方法转向神经架构,后者能够以更高的精度对时间表达进行标注。然而,神经模型目前还不能像基于规则的方法那样准确地区分不同类型的时间表达。在这项工作中,我们旨在确定最适合联合时间标注和类型分类的变压器架构,并研究半监督训练对这些系统性能的影响。通过对比分析令牌分类变体和编码器-解码器架构,我们提出了一种使用RoBERTa语言模型的变压器编码器-解码器模型作为表现最佳的系统。通过利用基于规则系统生成的弱标签数据补充训练资源,我们的模型在时间标注和类型分类方面超越了以往的工作,尤其是在罕见类别上表现出色。我们的代码和预训练实验可在以下地址获取:https://github.com/satya77/Transformer_Temporal_Tagger