
要約
テキスト中の時刻表現は言語理解において重要な役割を果たし、それらを正確に特定することは、各種の検索システムや自然言語処理システムにとって基本的な課題となっています。従来の研究では、規則ベースの手法から神経ネットワークアーキテクチャへと徐々に移行しており、表現のタギング精度が向上しています。しかし、神経モデルはまだ規則ベースの手法と同等に異なる表現タイプを区別することができません。本研究では、共同時刻タギングとタイプ分類に最も適したトランスフォーマー・アーキテクチャを特定することを目指し、半教師付き学習の影響についても調査を行いました。トークン分類変種とエンコーダー-デコーダー・アーキテクチャの研究に基づき、RoBERTa 言語モデルを使用したトランスフォーマー・エンコーダー-デコーダー・モデルを最良のパフォーマンスを持つシステムとして提案します。規則ベースのシステムから得られた弱ラベルデータを訓練リソースに追加することで、当モデルは特に希少クラスにおいて過去の研究を上回る時刻タギングとタイプ分類の性能を達成しました。当モデルのコードおよび事前学習済み実験結果は以下の URL で公開されています: https://github.com/satya77/Transformer_Temporal_Tagger