RA-DIT : Tuning par instruction dual augmenté par récupération

Les modèles linguistiques augmentés par récupération (RALMs) améliorent les performances en accédant à des connaissances de longue traîne et à jour provenant de sources externes, mais leur mise en œuvre s’avère complexe. Les approches existantes nécessitent soit des modifications coûteuses spécifiques à la récupération durant l’entraînement préalable des modèles linguistiques (LM), soit une intégration post hoc du stock de données, ce qui entraîne des performances sous-optimales. Nous proposons Retrieval-Augmented Dual Instruction Tuning (RA-DIT), une méthode légère d’ajustage fin qui offre une troisième voie en permettant de doter n’importe quel modèle linguistique pré-entraîné de capacités de récupération. Notre approche repose sur deux étapes distinctes d’ajustage fin : (1) une première étape met à jour un modèle linguistique pré-entraîné pour qu’il utilise mieux les informations récupérées, tandis que (2) une seconde étape améliore le récupérateur afin qu’il retourne des résultats plus pertinents, tels que préférés par le modèle linguistique. En ajustant finement sur des tâches nécessitant à la fois une utilisation efficace des connaissances et une conscience du contexte, nous démontrons que chaque étape apporte des améliorations significatives, et que leur combinaison entraîne des gains supplémentaires. Notre meilleur modèle, RA-DIT 65B, atteint des performances de pointe sur une large gamme de benchmarks exigeant beaucoup de connaissances, en apprentissage zéro et peu d’exemples, surpassant nettement les approches RALM existantes en contexte : une amélioration moyenne de +8,9 % en mode zéro-exemple et de +1,4 % en mode cinq-exemples.