
要約
現在の命名エンティティ認識(NER)における最先端のアプローチは、通常、文単位のテキストを対象としており、文境界を越える情報をモデル化できないという課題を抱えている。しかし、Transformerベースのモデルを用いることで、ドキュメントレベルの特徴を自然に捉えることが可能となる。本論文では、文献で一般的に考察される2つの標準的なNERアーキテクチャ、すなわち「ファインチューニング」および「特徴ベースのLSTM-CRF」におけるドキュメントレベル特徴の比較評価を行った。さらに、文脈ウィンドウサイズやドキュメント内局所性の強制といった、ドキュメントレベル特徴に関するさまざまなハイパーパラメータを評価した。得られた実験結果から、ドキュメントコンテキストをどのようにモデル化すべきかに関する具体的な提言を提示し、複数のCoNLL-03ベンチマークデータセットにおいて新たな最先端のスコアを達成した。本研究のアプローチは、実験の再現を容易にするためにFlairフレームワークに統合されている。