17日前

固有表現および語彙形態のためのニューラルモデリング(NEMO^2)

Dan Bareket, Reut Tsarfaty
固有表現および語彙形態のためのニューラルモデリング(NEMO^2)
要約

命名エンティティ抽出(Named Entity Recognition, NER)は、自然言語処理(NLP)における基本的なタスクであり、通常はトークン列に対する分類問題として定式化される。しかし、形態素豊富言語(Morphologically-Rich Languages, MRLs)では、この基本的な定式化に課題が生じる。なぜなら、命名エンティティの境界が必ずしもトークンの境界と一致するわけではないため、むしろ形態論的境界に従うからである。MRLsにおけるNERを扱うためには、以下の2つの根本的な問いに答える必要がある。すなわち、ラベル付けの基本単位とは何か、そして、実際の設定(すなわち、真の形態論的解析が入手できない状況)において、これらの単位をどのように検出・分類するかである。本研究では、形態素豊富かつ曖昧性の高い現代ヘブライ語を対象として、新たに開発したNERベンチマークを用いて、これらの問いに実証的にアプローチした。このベンチマークは、並行して提供されるトークンレベルと形態素レベルのNERアノテーションを備えている。実験結果から、形態論的境界を明示的にモデル化することでNERの性能が向上することが示された。さらに、NERが先行し、形態論的分解を事前に削減(pruning)する新しいハイブリッドアーキテクチャが、従来のパイプライン(形態論的分解がNERの前に厳密に先行する構成)を大幅に上回ることが明らかになった。この成果は、ヘブライ語におけるNERおよび形態論的分解のタスクにおいて、新たな性能の基準を設定した。