Récupération d'entités auto-régressives

Les entités sont au cœur de la manière dont nous représentons et agrégons les connaissances. Par exemple, les encyclopédies telles que Wikipedia sont structurées autour d’entités (une par article Wikipedia). La capacité à récupérer ces entités à partir d’une requête est fondamentale pour les tâches intensives en connaissances, telles que le lien d’entités ou la réponse à des questions dans un domaine ouvert. Les approches actuelles peuvent être comprises comme des classificateurs utilisant des étiquettes atomiques, une par entité. Leurs vecteurs de poids sont des représentations denses d’entités produites par le codage d’informations métadonnées relatives aux entités, telles que leurs descriptions. Cette approche présente toutefois plusieurs limites : (i) les relations entre le contexte et l’entité sont principalement capturées par un produit scalaire de vecteurs, ce qui peut faire manquer des interactions fines ; (ii) un volume mémoire important est nécessaire pour stocker des représentations denses lorsque l’on considère de grands ensembles d’entités ; (iii) il est nécessaire de sélectionner à l’entraînement un ensemble approprié de données négatives difficiles (hard negatives). Dans ce travail, nous proposons GENRE, le premier système qui récupère les entités en générant leurs noms uniques, de manière autoregressive, mot après mot, de gauche à droite. Cette approche atténue les problèmes techniques mentionnés ci-dessus, car : (i) la formulation autoregressive capte directement les relations entre le contexte et le nom de l’entité, en effectuant une encodage croisé efficace ; (ii) la charge mémoire est considérablement réduite, car les paramètres de notre architecture encodeur-décodeur évoluent en fonction de la taille du vocabulaire, et non du nombre d’entités ; (iii) la perte de type softmax est calculée sans avoir à sous-échantillonner les données négatives. Nous avons expérimenté sur plus de 20 jeux de données dans des tâches de désambiguïsation d’entités, de lien d’entités en bout à bout et de récupération de documents, obtenant des résultats au niveau de l’état de l’art ou très compétitifs, tout en utilisant une fraction négligeable de la charge mémoire des systèmes concurrents. Enfin, nous démontrons qu’il est possible d’ajouter de nouvelles entités simplement en spécifiant leurs noms. Code et modèles pré-entraînés disponibles à l’adresse : https://github.com/facebookresearch/GENRE.