17日前
複数の部分的にアノテーションされたコーパスから統一された名前付きエンティティタガーを学習することで、効率的な適応を実現する
Xiao Huang, Li Dong, Elizabeth Boschee, Nanyun Peng

要約
命名エンティティ認識(Named Entity Recognition, NER)は、未加工のテキスト中にタイプ付きのエンティティ表記を同定するタスクである。このタスクは既に確立されたものであるが、普遍的に用いられるタグセットは存在しない。多くの場合、データセットは下流の応用に特化してアノテーションが行われており、特定のタスクに関連する少数のエンティティタイプのみをカバーしている。例えば、生物医学分野では、あるコーパスでは遺伝子を、別のコーパスでは化学物質を、さらに別のコーパスでは疾患をアノテーションしているが、各コーパスのテキストには実際にはすべての3種類のエンティティが含まれている。本論文では、こうした「部分的にアノテーションされた」データセットを統合し、学習コーパスに含まれるすべてのエンティティタイプを共同で同定するための深層構造化モデルを提案する。複数のデータセットを活用することで、モデルは堅牢な入力表現を学習可能となる。また、統合された構造化モデルを構築することにより、テスト時に複数モデルの予測を統合する際に生じる潜在的な矛盾を回避できる。実験の結果、複数の部分的にアノテーションされたデータセット上で学習し、学習時に使用したコーパスとは異なるタグを含むデータセット上でテストした場合、提案モデルは強力なマルチタスク学習ベースラインを著しく上回ることが示された。