HySPA : Génération hybride de segments pour l’extraction textuelle vers graphe évolutif

L'extraction de graphes à partir de textes vise à extraire automatiquement des graphes d'information composés de mentions et de types à partir de textes en langage naturel. Les approches existantes, telles que le remplissage de tableaux ou le scoring par paires, ont démontré des performances remarquables sur diverses tâches d'extraction d'information, mais elles peinent à être mises à l'échelle sur des jeux de données comportant des textes d'entrée plus longs en raison de leur complexité spatiale et temporelle du second ordre par rapport à la longueur d'entrée. Dans ce travail, nous proposons un générateur hybride d'intervalles (HySPA), qui applique une transformation inversible du graphe d'information en une séquence alternée de nœuds et de types d'arêtes, et génère directement de telles séquences via un décodeur hybride d'intervalles capable de décoder de manière récurrente à la fois les intervalles et les types, avec des complexités linéaires en temps et en espace. Des expériences étendues sur le jeu de données ACE05 montrent que notre approche surpasser significativement les états de l'art sur la tâche d'extraction conjointe d'entités et de relations.