
要約
近年、名前付きエンティティの表記にとどまらず、代名詞や名詞句を含む名詞句に対して、より豊かで極めて細分化されたタイプセットを用いた微細なエンティティタイプ付けの拡張が進められている。この極微細エンティティタイプ付けタスクにおける主要な課題は、人間によるアノテーションデータが極めて限られていること、および既存の遠隔監督(distant supervision)や弱監督(weak supervision)アプローチのアノテーション能力が著しく限定的である点にある。本論文では、この問題を解決するために、BERTのマスク言語モデル(Masked Language Model: MLM)を活用して、極微細エンティティタイプ付けのための学習データを生成する手法を提案する。具体的には、文内のエンティティ表記に対して、その文脈に依存した上位概念(ハイパニム)を予測するようにBERT MLMの入力を構成する。この予測結果が、エンティティのタイプラベルとして利用可能となる。実験結果から、自動生成されたラベルを活用することで、極微細エンティティタイプ付けモデルの性能が著しく向上することが示された。さらに、単純なタイプマッピングを施すことで、本手法が従来の微細なエンティティタイプ付けタスクにも応用可能であることも示している。