Un réseau de reconstruction d’image masquée pour l’extraction de relations au niveau du document

L'extraction de relations à l'échelle du document vise à extraire les relations entre entités au sein d'un même document. Contrairement à son homologue à l'échelle de la phrase, l'extraction de relations à l'échelle du document nécessite une inférence sur plusieurs phrases afin d'extraire des triples relationnels complexes. Les recherches antérieures réalisent généralement cette inférence par propagation d'information au niveau des mentions ou des entités dans des graphes documentaires, sans tenir compte des corrélations entre les relations. Dans ce travail, nous proposons un nouveau modèle d'extraction de relations à l'échelle du document basé sur un réseau de reconstruction d’image masquée (DRE-MIR), qui modélise l’inférence comme un problème de reconstruction d’image masquée afin de capturer les corrélations entre les relations. Plus précisément, nous utilisons tout d’abord un module encodeur pour extraire les caractéristiques des entités, puis construisons une matrice des paires d’entités à partir de ces caractéristiques. Ensuite, nous traitons cette matrice comme une image, la masquons aléatoirement et la reconstruisons via un module d’inférence, permettant ainsi de capturer les corrélations entre les relations. Nous évaluons notre modèle sur trois jeux de données publics d’extraction de relations à l’échelle du document : DocRED, CDR et GDA. Les résultats expérimentaux démontrent que notre modèle atteint des performances de pointe sur ces trois jeux de données et présente une excellente robustesse face au bruit lors du processus d’inférence.