Extraction de relations à l'échelle du document avec seuillage adaptatif et agrégation contextuelle localisée

L’extraction de relations à l’échelle du document (RE) pose de nouveaux défis par rapport à sa contrepartie à l’échelle de la phrase. Un même document contient généralement plusieurs paires d’entités, et une même paire d’entités peut apparaître plusieurs fois dans le document, associée à plusieurs relations possibles. Dans cet article, nous proposons deux nouvelles techniques : le seuillage adaptatif et le regroupement localisé du contexte, afin de résoudre les problèmes multi-étiquettes et multi-entités. Le seuillage adaptatif remplace le seuil global utilisé pour la classification multi-étiquettes dans les travaux antérieurs par un seuil apprenable dépendant des entités. Le regroupement localisé du contexte transfère directement l’attention des modèles de langage pré-entraînés afin de localiser le contexte pertinent, utile pour déterminer la relation. Nous menons des expériences sur trois jeux de données de référence pour l’extraction de relations à l’échelle du document : DocRED, un jeu de données récemment publié à grande échelle, ainsi que deux jeux de données du domaine biomédical, CDR et GDA. Notre modèle ATLOP (Adaptive Thresholding and Localized cOntext Pooling) atteint un score F1 de 63,4, et surpasse significativement les modèles existants sur les deux jeux de données CDR et GDA.