
要約
多くの関係が文の境界を越えるという事実に動機付けられ、文書レベルの関係抽出(DocRE)への関心が高まっています。DocREは、文内および文間での情報統合を必要とし、エンティティの言及間の複雑な相互作用を捉えます。既存の手法の多くはパイプラインベースであり、エンティティを入力として必要とします。しかし、エンティティと関係の抽出を共同で学習することで、共有パラメータや訓練ステップにより性能向上と効率化が期待できます。本論文では、seq2relと呼ばれるシーケンス・ツー・シーケンスアプローチを開発し、DocREのサブタスク(エンティティ抽出、共参照解消、関係抽出)をエンドツーエンドで学習できるようにしました。これにより、タスク固有のコンポーネントからなるパイプラインを置き換えることが可能となります。単純な戦略である「エンティティヒント」を使用して、我々のアプローチをいくつかの人気あるバイオメディカルデータセット上で既存のパイプラインベース手法と比較し、いくつかの場合においてその性能を超えることを示しました。また、これらのデータセットにおける最初のエンドツーエンド結果も報告しており、今後の比較のために利用できます。最後に、我々のモデル下でのエンドツーエンドアプローチがパイプラインベースアプローチよりも優れていることを示しています。我々のコード、データセットおよび学習済みモデルは{\url{https://github.com/johngiorgi/seq2rel}}で公開されています。オンラインデモは{\url{https://share.streamlit.io/johngiorgi/seq2rel/main/demo.py}}で利用可能です。