6ヶ月前

概要

命名エンティティ抽出（Named Entity Recognition, NER）は、バイオメディカル分野における文書からの情報抽出において基盤的な役割を果たす。NERの顕著な利点の一つは、文脈に応じたバイオメディカルエンティティの一貫した抽出である。現在のドキュメントレベルNERモデルは一貫した予測を示すものの、依然として期待される水準に達していない。本研究では、エンティティ内に含まれる形容詞や前置詞がラベルの一貫性を低下させ、結果として予測の不一致を引き起こす可能性について検討した。本論文では、修飾語（例えば形容詞や前置詞）のラベル依存性を強化することで、より高いラベル一致率を達成する手法ConNERを提案する。ConNERは、修飾語の初期ラベルを精緻化することで、バイオメディカルエンティティの出力表現を改善する。本手法の有効性は、4つの代表的なバイオメディカルNERデータセット上で実証された。特に、ラベル一貫性が本質的に低い2つのデータセットにおいて、F1スコアで7.5～8.6%の絶対的向上が確認された。この結果から、ConNERは内在的にラベル一貫性が低いデータセットにおいて特に有効であると考えられる。定性的な分析を通じて、本手法がNERモデルが一貫した予測を生成する仕組みを示した。本研究のコードおよびリソースは、https://github.com/dmis-lab/ConNER/ にて公開されている。

ソースPDF