Prédiction structurée autoregressive avec des modèles linguistiques

Les dernières années ont vu émerger un changement de paradigme en traitement du langage naturel (NLP) avec l’utilisation croissante des modèles pré-entraînés sur langage (PLM) pour une large gamme de tâches. Toutefois, de nombreuses décisions complexes doivent être prises pour représenter des structures (par exemple, du texte annoté, des chaînes de coréférence) de manière à ce qu’elles puissent être efficacement capturées par les PLM. Les travaux antérieurs sur la prédiction structurée avec les PLM consistent généralement à « aplatisser » la sortie structurée en une séquence, ce qui limite la qualité de l’information structurale apprise et conduit à des performances inférieures par rapport aux modèles discriminatifs classiques. Dans ce travail, nous proposons une approche permettant de modéliser les structures comme une séquence d’actions, de manière autoregressive, à l’aide des PLM, permettant ainsi d’apprendre les dépendances internes à la structure sans perte d’information. Notre méthode atteint un nouveau état de l’art sur toutes les tâches de prédiction structurée étudiées, à savoir la reconnaissance d’entités nommées, l’extraction relationnelle end-to-end et la résolution de coréférence.