REBEL : Extraction de relations par génération linguistique bout-en-bout
L’extraction de triplets de relations à partir de textes bruts constitue une tâche fondamentale en extraction d’information, permettant diverses applications telles que la population ou la validation des bases de connaissances, le vérification de faits, ainsi que d’autres tâches ultérieures. Toutefois, cette tâche repose généralement sur des pipelines multi-étapes qui propagent les erreurs ou se limitent à un nombre restreint de types de relations. Pour surmonter ces limitations, nous proposons l’utilisation de modèles autoregressifs de type seq2seq. Ces modèles se sont déjà révélés performants non seulement dans la génération de langage, mais également dans des tâches de compréhension du langage naturel (NLU) comme le lien d’entités, grâce à leur formulation sous forme de tâches seq2seq.Dans cet article, nous montrons comment l’extraction de relations peut être simplifiée en représentant les triplets sous forme de séquences de texte, et présentons REBEL, un modèle seq2seq basé sur BART, capable d’effectuer l’extraction de relations en bout-en-bout pour plus de 200 types de relations différents. Nous démontrons la flexibilité de notre modèle en le fine-tunant sur une variété de benchmarks d’extraction de relations et de classification de relations, où il atteint des performances de pointe dans la plupart d’entre eux.