
要約
エンティティリンク(Entity Linking, EL)システムは、近年の事前学習済み言語モデルが提供する文脈依存表現のおかげで、標準的なベンチマークにおいて著しい成果を達成している。しかし、こうしたシステムは最適な性能を発揮するためには、数百万ものラベル付き例が必要であり、特に計算リソースが限られている環境では、学習に数日を要する場合が少なくない。本論文では、命名エンティティ認識(Named Entity Recognition, NER)を活用することで、ラベル付きデータ量が多きと少ない状況におけるELシステムの性能ギャップを縮小する可能性に着目する。具体的には、ELシステムがNERをどのように活用できるか、またその効果がどの程度まで及ぶかを示す。すなわち、NERを活用することで、エンティティ表現の強化、候補エンティティの選択の改善、より効果的なネガティブサンプルの選定、および出力エンティティに対するハード制約とソフト制約の強制が可能となることを明らかにする。本研究で開発したソフトウェア(コードおよびモデルチェックポイント)は、https://github.com/Babelscape/ner4el にて公開している。