
要約
ドキュメントレベルの関係抽出(DocRE)は、文書内のエンティティペア間の関係を特定することを目指しています。しかし、既存の大多数の手法は一様なラベル分布を前提としており、実世界の非平衡データセットでは最適でない性能となっています。この課題に対処するため、私たちは埋め込み空間からデータを強化する生成モデルを使用した新しいデータ拡張手法を提案します。当手法は変分オートエンコーダー(VAE)アーキテクチャを利用し、エンティティペア表現によって形成されるすべての関係ごとの分布を捉え、代表不足の関係に対するデータを拡張します。さらに、DocREの多ラベル性質をよりよく捉えるために、VAEの潜在空間を拡散モデルでパラメータ化します。また、提案されたVAEベースの拡張モジュールをDocREシステムに統合する階層的な学習フレームワークも導入します。2つのベンチマークデータセットでの実験結果により、当手法が最先端モデルを超えており、DocREにおける長尾分布問題を効果的に解決していることが示されました。