11日前
ネストされた名前付きエンティティ認識のための二段階識別子:場所特定とラベル付け
Yongliang Shen, Xinyin Ma, Zeqi Tan, Shuai Zhang, Wen Wang, Weiming Lu

要約
名前付きエンティティ抽出(Named Entity Recognition, NER)は、自然言語処理分野で広く研究されているタスクである。従来のNER研究は平坦なエンティティ(flat entities)のみを扱い、ネスト構造を持つエンティティ(nested entities)を無視していた。スパンベースの手法は、エンティティ抽出をスパン分類のタスクとして捉える。これらの手法はネスト型NERを扱う潜在的な能力を持つものの、計算コストが高く、境界情報の利用が不十分であり、エンティティと部分的に一致するスパンの活用が不十分な上、長大なエンティティの抽出に困難を抱えるという課題を有している。これらの問題に対処するため、本研究では二段階型エンティティ識別手法を提案する。第一段階では、初期スパン(seed spans)に対してフィルタリングと境界回帰を施し、エンティティの位置を推定するスパン候補を生成する。第二段階では、境界を調整したスパン候補に対して対応するカテゴリをラベル付けする。本手法は、トレーニング過程においてエンティティの境界情報および部分的に一致するスパンを効果的に活用する。境界回帰により、理論上任意の長さのエンティティをカバー可能となるため、長大エンティティの抽出能力が向上する。さらに、第一段階で多くの低品質な初期スパンが除去されるため、推論の時間計算量が削減される。ネスト型NERデータセットにおける実験結果から、本手法が従来の最先端モデルを上回る性能を示した。