
要約
命名エンティティ認識(NER)において、エンティティの長さは特定のドメインやデータセットに依存し、変動する。事前学習済み言語モデル(PLM)はNERタスクに用いられるが、長さの統計、表層形、偏ったクラス分布といったデータセットのパターンに偏りがちである。このようなバイアスは、実世界における未観測のエンティティ表記に対応するためには不可欠なPLMの一般化能力を阻害する。本研究では、異なる長さのエンティティに対する予測性能を向上させるため、新しいデバイアス手法「RegLER」を提案する。評価と実世界の状況とのギャップを埋めるために、未観測のエンティティ集合を含む分割されたベンチマークデータセット上でPLMの性能を評価した。その結果、RegLERは、エンティティ内の接続語や特殊文字におけるデバイアスを緩和することで、長文エンティティの予測において顕著な改善を示した。さらに、多くのNERデータセットには深刻なクラス不均衡が存在し、訓練中に「The」のような容易なネガティブ例が支配的になってしまう。本手法は、こうした容易なネガティブ例の影響を低減することで、偏ったクラス分布を緩和する。バイオ医療および一般ドメインにおける広範な実験により、本手法の一般化能力が実証された。再現性および今後の研究を促進するため、コードを公開する。https://github.com/minstar/RegLER