
摘要
文档级关系抽取(DocRE)旨在识别文档中实体对之间的关系。然而,大多数现有的方法假设标签分布均匀,这导致在现实世界中的不平衡数据集上性能不佳。为了解决这一挑战,我们提出了一种基于生成模型的新型数据增强方法,以增强嵌入空间中的数据。该方法利用变分自编码器(VAE)架构来捕捉由实体对表示形成的所有关系分布,并为代表性不足的关系增加数据。为了更好地捕捉DocRE的多标签特性,我们使用扩散模型(Diffusion Model)参数化VAE的潜在空间。此外,我们引入了一个层次训练框架,将所提出的基于VAE的数据增强模块集成到DocRE系统中。实验结果表明,在两个基准数据集上的测试中,我们的方法优于现有最先进模型,有效解决了DocRE中的长尾分布问题。