Distillation de connaissance du lecteur vers le récupérateur pour la réponse aux questions

La tâche de récupération d'information constitue une composante essentielle de nombreux systèmes de traitement du langage naturel, tels que la réponse à des questions dans un domaine ouvert. Alors que les méthodes traditionnelles reposaient sur des caractéristiques conçues manuellement, les représentations continues fondées sur les réseaux de neurones ont récemment obtenu des résultats compétitifs. Un défi majeur lié à l'utilisation de ces méthodes réside dans la nécessité d’obtenir des données supervisées pour entraîner le modèle de récupération, c’est-à-dire des paires de requêtes et de documents pertinents. Dans cet article, nous proposons une technique d’apprentissage de modèles de récupération pour des tâches ultérieures, inspirée de la distillation de connaissances, et qui ne nécessite pas de paires annotées de requêtes et de documents. Notre approche exploite les scores d’attention d’un modèle lecteur, utilisé pour résoudre la tâche à partir des documents récupérés, afin d’obtenir des étiquettes synthétiques pour le modèle de récupération. Nous évaluons notre méthode sur la tâche de réponse aux questions, obtenant des résultats parmi les meilleurs à ce jour.