
要約
本研究では、ネストされた固有表現認識(Nested Named Entity Recognition, NER)の設定に対応する2つのニューラルネットワークアーキテクチャを提案します。この設定では、固有表現が重複し、複数のラベルでラベリングされる可能性があります。我々はネストされたラベルを線形化スキームによりエンコードします。最初に提案するアプローチでは、標準的なLSTM-CRFアーキテクチャにおいて、ネストされたラベルの直積に対応するマルチラベルとしてネストされたラベルをモデル化します。第二のアプローチでは、入力シーケンスがトークンからなり、出力シーケンスがラベルからなるシーケンス・ツー・シーケンス問題としてネストされたNERを捉えます。予測対象の単語に対してハードアテンションを使用します。提案した手法は、ACE-2004、ACE-2005、GENIAおよびチェコCNECの4つのコーパスにおいて、ネストされたNERの最先端技術を上回る性能を示しました。さらに、最近公開されたコンテキスト依存埋め込み(contextual embeddings)であるELMo、BERTおよびFlairを用いてアーキテクチャを強化し、4つのネスト実体コーパスでのさらなる改善を達成しました。また、CoNLL-2002オランダ語およびスペイン語とCoNLL-2003英語における平滑なNER(Flat NER)の最先端結果も報告しています。