
要約
名前付きエンティティ抽出(Named Entity Recognition, NER)は、非構造化テキスト内の名前付きエンティティの出現を特定し、事前に定義されたエンティティクラスに分類することを目的とする。深層学習に基づく事前学習言語モデルは、NERにおいて優れた予測性能を達成するのに寄与しているが、多くのドメイン特化型NERアプリケーションでは依然として大量のラベル付きデータが必要とされる。ラベル取得問題に対する一般的なフレームワークとしてのアクティブラーニング(Active Learning, AL)は、モデル性能を損なうことなくアノテーションコストを最小化する目的でNERタスクに活用されている。しかし、トークンのクラス分布が著しく不均衡であることが、効果的なALクエリ手法の設計を困難にしている。本研究では、潜在的なポジティブトークンに注目するAL文単位クエリ評価関数を複数提案し、文ベースおよびトークンベースのコスト評価戦略を用いてこれらの関数を評価した。また、長すぎるまたは短すぎる文に対して適切にペナルティを与えるためのより優れたデータ駆動型正規化手法も提案した。異なる3つのドメインから得られたデータセットを用いた実験の結果、従来手法と比較して、注釈付きトークン数を削減しつつ、同等またはより優れた予測性能を達成できることを示した。