HyperAIHyperAI

Command Palette

Search for a command to run...

複数の部分的にアノテーションされたコーパスから統一された名前付きエンティティタガーを学習することで、効率的な適応を実現する

Xiao Huang Li Dong Elizabeth Boschee Nanyun Peng

概要

命名エンティティ認識(Named Entity Recognition, NER)は、未加工のテキスト中にタイプ付きのエンティティ表記を同定するタスクである。このタスクは既に確立されたものであるが、普遍的に用いられるタグセットは存在しない。多くの場合、データセットは下流の応用に特化してアノテーションが行われており、特定のタスクに関連する少数のエンティティタイプのみをカバーしている。例えば、生物医学分野では、あるコーパスでは遺伝子を、別のコーパスでは化学物質を、さらに別のコーパスでは疾患をアノテーションしているが、各コーパスのテキストには実際にはすべての3種類のエンティティが含まれている。本論文では、こうした「部分的にアノテーションされた」データセットを統合し、学習コーパスに含まれるすべてのエンティティタイプを共同で同定するための深層構造化モデルを提案する。複数のデータセットを活用することで、モデルは堅牢な入力表現を学習可能となる。また、統合された構造化モデルを構築することにより、テスト時に複数モデルの予測を統合する際に生じる潜在的な矛盾を回避できる。実験の結果、複数の部分的にアノテーションされたデータセット上で学習し、学習時に使用したコーパスとは異なるタグを含むデータセット上でテストした場合、提案モデルは強力なマルチタスク学習ベースラインを著しく上回ることが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています