要約
時系列表現(Temporal expressions)とは、時間における点、期間、繰り返しを表す語句や表現を指す。これらの表現を自動的に注釈(annotation)することは、近年注目が高まっている研究課題である。時系列表現の認識(recognition)は、最小限の教師付き学習(minimally supervised machine learning)によって達成可能であるが、その正確な解釈(正規化、normalisation)は、人間の知識を要する複雑なタスクである。本論文では、時系列表現の正規化を目的としたコミュニティ主導型のツール「TIMEN」を提案する。TIMENは現在の最良手法を統合・基盤として構築されており、独立したツールとして設計されており、既存のシステムへの容易な統合が可能である。我々は、時系列表現の正規化を効果的に行うためには、大規模な知識ベースとルールセットが不可欠であると主張する。本研究の解決策は、異なる言語に対応する知識を収集・管理するためのフレームワークおよびシステムである。既存データおよび新たに注釈されたデータを用いて、競争力のある性能を示す結果を提示する。さらに、情報抽出(IE)コミュニティの皆様に、知識ベースの構築に協力していただき、時系列表現の正規化問題を共に解決することを呼びかける。