
要約
本研究は、名前付きエンティティ抽出(NER)タスクにおける変換器ベースモデルの有効性を検討する。具体的には、単一文、複数文、および文脈をattentionによって統合したベクトル表現を用いる「単一」「統合」「文脈」の3種類のデータ表現戦略を調査している。分析の結果、モデルを単一の表現戦略で訓練すると、異なるデータ表現に対して性能が低下する傾向があることが明らかになった。この制約を克服するため、本研究では3つの戦略を統合的に活用する訓練手法を提案し、モデルの安定性および適応性の向上を図っている。このアプローチの成果を、英語、ポーランド語、チェコ語、ドイツ語の4言語について、さまざまなデータセット上で検証・議論し、統合的戦略の有効性を示している。