要約
自然テキストから関係トリプレットを抽出することは、情報抽出における重要なタスクであり、知識ベースの構築や検証、事実検証、およびその他の下流タスクに応用可能な基盤を提供する。しかし、従来のアプローチは複数ステップにわたるパイプラインを必要とし、誤差の累積や関係タイプの数に制限があるという課題を抱えていた。これらの問題を克服するため、本研究では自己回帰的seq2seqモデルの活用を提案する。この種のモデルは、言語生成タスクに優れているだけでなく、エンティティリンクやその他の自然言語理解(NLU)タスクにおいても、seq2seqフレームワークとして定式化されることで優れた性能を発揮することが既に示されている。本論文では、トリプレットをテキスト列として表現することで、関係抽出(Relation Extraction)を簡素化する手法を提示し、BARTを基盤とするseq2seqモデル「REBEL」を提案する。REBELは200種類以上の異なる関係タイプに対してエンドツーエンドで関係抽出を実行可能であり、その柔軟性を、多数の関係抽出および関係分類ベンチマークにおける微調整(fine-tuning)を通じて実証している。その結果、多数のタスクで最先端(state-of-the-art)の性能を達成した。