11日前

シンプルでありながら強力なアプローチ:ネストされた名前付きエンティティ認識における見過ごされがちなアーキテクチャ

{Jocelyn Dunstan, Felipe Bravo-Marquez, Matias Rojas}
シンプルでありながら強力なアプローチ:ネストされた名前付きエンティティ認識における見過ごされがちなアーキテクチャ
要約

名前付きエンティティ抽出(Named Entity Recognition, NER)は、自然言語処理における重要なタスクであり、テキストの特定の範囲が事前に定義されたカテゴリに属するかどうかを識別することを目的としている。従来のNERシステムは、他のエンティティメンションに含まれる「ネストされたエンティティ(nested entities)」を無視している。いくつかの手法がこの課題に対処するために提案されてきたが、その多くは複雑なタスク特有の構造に依存しており、このタスクに有用な可能性のあるベースラインを無視している。本研究では、こうした状況がモデルの性能に対する楽観的な評価を生み出していると指摘する。本論文では、各エンティティタイプに対して独立したシーケンスラベリングモデルを学習するというシンプルかつ軽視されがちな手法である「複数LSTM-CRF(Multiple LSTM-CRF, MLC)モデル」を再検討する。3つのネストされたNERコーパスを用いた広範な実験により、このモデルの構造が単純であるにもかかわらず、より洗練された手法と比較して同等以上、あるいはそれ以上の性能を示すことが明らかになった。さらに、事前学習済み言語モデルを組み込むことで、チリの待機リストコーパス(Chilean Waiting List corpus)において、MLCアーキテクチャが最先端の結果を達成することを示した。また、ネストされたNERタスクに特化した評価指標を計算するオープンソースライブラリを実装した。得られた結果から、従来の研究で用いられてきた指標は、モデルがネストされたエンティティを検出する能力を適切に測定できていないことが明らかとなり、本研究で提案する新しい指標により、既存のアプローチがこのタスクをどのように処理しているかに関する新たな証拠が得られた。

シンプルでありながら強力なアプローチ:ネストされた名前付きエンティティ認識における見過ごされがちなアーキテクチャ | 最新論文 | HyperAI超神経