摘要
时间表达式是指描述时间点、时间段或时间重复性的词语或短语。自动标注这些表达式已成为日益受到关注的研究课题。虽然通过少量监督的机器学习方法即可实现时间表达式的识别,但其准确解释(即归一化)则是一项复杂任务,需要依赖人类知识。本文提出TIMEN——一种由社区共同推动的时间表达式归一化工具。TIMEN基于当前最优方法构建,是一个独立的工具,可轻松集成至现有系统中。我们认为,只有依托大规模知识库与规则集,才能有效完成时间表达式归一化任务。为此,我们设计了一套框架与系统,用于捕获适用于多种语言的时间知识。基于现有数据及新标注的数据,我们展示了具有竞争力的实验结果,并诚邀信息抽取(IE)领域的研究者共同参与构建知识库,以协同解决时间表达式归一化这一关键问题。