
名前付き実体抽出(Named Entity Recognition, NER)は、通常、入力として1文のテキストを扱うシーケンス分類タスクとして定式化される。しかし、このタスクに有用な情報は、しばしば1文の文脈を超えた範囲に存在することが明らかである。近年提案された自己注意機構(self-attention)を備えたモデル、例えばBERTは、入力データにおける長距離依存関係を効率的に捉えるとともに、複数文から構成される入力を扱える点から、自然言語処理タスクにおいて文間情報を統合するアプローチに新たな可能性をもたらしている。本論文では、5言語におけるBERTモデルを用いたNERにおいて、文間情報を活用する方法について体系的な検討を行う。その結果、BERTの入力に追加の文を含むことで、すべての検証言語およびモデルにおいてNER性能が一貫して向上することが明らかになった。また、各入力に複数の文を含むことで、同一の文を異なる文脈で処理した際の予測結果を比較・分析することが可能となった。そこで、文の予測結果を統合する簡単な手法である「文脈的多数決投票(Contextual Majority Voting, CMV)」を提案し、BERTを用いたNER性能のさらなる向上を実証した。本手法は、BERTの基盤アーキテクチャに何ら変更を加えることなく、学習および予測用のサンプル構造を再設計するだけで実現可能である。既存のデータセット(CoNLL'02およびCoNLL'03 NERベンチマークなど)を用いた評価により、英語、オランダ語、フィンランド語において既存の最先端(SOTA)結果を上回ること、ドイツ語では報告されているBERTベースの最高性能を達成すること、またスペイン語においても他のBERTベースのアプローチと同等の性能を発揮することが確認された。本研究で実装したすべての手法は、オープンライセンスのもとで公開する。