Renforcer la robustesse des modèles linguistiques augmentés par la récupération face au contexte irrelevante

Les modèles linguistiques augmentés par la récupération (RALMs) offrent un potentiel prometteur pour développer des systèmes de compréhension du langage qui sont factuels, efficaces et à jour. Un enjeu fondamental pour les RALMs est que les informations récupérées améliorent la performance du modèle lorsqu’elles sont pertinentes, sans nuire à celle-ci lorsqu’elles ne le sont pas. Ce point est particulièrement crucial dans les scénarios de raisonnement à plusieurs étapes, où une utilisation inappropriée de preuves non pertinentes peut entraîner des erreurs cumulatives. Toutefois, des travaux récents ont montré que l’augmentation par récupération peut parfois avoir un effet négatif sur la performance. Dans ce travail, nous présentons une analyse approfondie menée sur cinq benchmarks de réponse à des questions dans un domaine ouvert, afin de caractériser les situations où la récupération réduit la précision. Nous proposons ensuite deux méthodes pour atténuer ce problème. Premièrement, une méthode de base simple qui filtre les passages récupérés ne vérifiant pas l’entraînement par rapport aux paires question-réponse selon un modèle d’inférence linguistique naturelle (NLI). Cette approche est efficace pour prévenir la dégradation de la performance, mais entraîne toutefois l’élimination de passages pertinents. Ainsi, nous proposons une méthode permettant de générer automatiquement des données afin d’ajuster finement le modèle linguistique pour qu’il utilise correctement les passages récupérés, en combinant à l’entraînement des contextes pertinents et non pertinents. Nous montrons empiriquement que même 1 000 exemples suffisent à entraîner un modèle robuste face aux contextes non pertinents, tout en maintenant une haute performance sur les exemples comportant des contextes pertinents.