il y a 17 jours

Mémoire par mention : intégrer des connaissances textuelles dans les Transformers via l'attention aux mentions d'entités

Michiel de Jong, Yury Zemlyanskiy, Nicholas FitzGerald, Fei Sha, William Cohen

Résumé

Les tâches de compréhension du langage naturel telles que la réponse à des questions dans un domaine ouvert exigent souvent la récupération et l'intégration d'informations factuelles provenant de multiples sources. Nous proposons de résoudre ce problème en intégrant une représentation semi-paramétrique d'un grand corpus textuel dans un modèle Transformer, afin d'en faire une source de connaissance factuelle. Plus précisément, notre méthode représente la connaissance à l’aide d’un « mémoire de mentions », c’est-à-dire un tableau de représentations vectorielles denses pour chaque mention d’entité présente dans le corpus. Le modèle proposé, TOME, est un Transformer qui accède à ces informations via des couches de mémoire internes, dans lesquelles chaque mention d’entité présente dans le passage d’entrée s’attache à la mémoire de mentions. Cette approche permet la synthèse et le raisonnement sur de nombreuses sources d’information disparates au sein d’un seul modèle Transformer. Des expériences menées avec une mémoire contenant 150 millions de mentions issues de Wikipedia montrent que TOME atteint des performances solides sur plusieurs tâches ouvertes et fortement dépendantes de la connaissance, notamment les benchmarks de vérification d’affirmations HoVer et FEVER, ainsi que plusieurs benchmarks de question-réponse centrés sur les entités. Nous démontrons également que le modèle apprend à se concentrer sur les mentions informatives, même en l’absence de supervision directe. Enfin, nous montrons que le modèle peut généraliser à de nouvelles entités inconnues en mettant à jour simplement la mémoire, sans nécessiter de re-entraînement.