VaeDiff-DocRE : Cadre de génération de données de bout en bout pour l’extraction de relations au niveau du document

L'extraction de relations au niveau du document (DocRE) vise à identifier les relations entre des paires d'entités au sein d'un document. Cependant, la plupart des méthodes existantes supposent une distribution uniforme des étiquettes, ce qui entraîne des performances sous-optimales sur des jeux de données réels et déséquilibrés. Pour relever ce défi, nous proposons une nouvelle approche d'augmentation de données utilisant des modèles génératifs pour enrichir les données dans l'espace d'embedding. Notre méthode utilise l'architecture de l'Autoencodeur Variationnel (VAE) pour capturer toutes les distributions relationnelles formées par les représentations de paires d'entités et augmenter les données pour les relations sous-représentées. Afin de mieux saisir la nature multi-étiquette du DocRE, nous paramétrons l'espace latent du VAE avec un Modèle de Diffusion. De plus, nous introduisons un cadre d'entraînement hiérarchique pour intégrer le module d'augmentation basé sur le VAE dans les systèmes DocRE. Les expériences menées sur deux jeux de données de référence montrent que notre méthode surpasses les modèles de pointe actuels, en abordant efficacement le problème de distribution à queue longue dans le DocRE.