Self-RAG : Apprendre à récupérer, à générer et à critiquer grâce à la réflexion introspective

Malgré leurs capacités remarquables, les grands modèles linguistiques (LLM) produisent fréquemment des réponses contenant des inexactitudes factuelles en raison de leur dépendance exclusive aux connaissances paramétriques qu’ils encapsulent. La génération augmentée par récupération (RAG), une approche ad hoc qui enrichit les LLM par la récupération de connaissances pertinentes, atténue partiellement ces problèmes. Toutefois, la récupération et l’intégration indiscriminées d’un nombre fixe de passages, qu’ils soient pertinents ou non, ou qu’une récupération soit nécessaire, réduit la polyvalence du modèle ou peut conduire à des générations inutiles. Nous introduisons un nouveau cadre, appelé Self-Reflective Retrieval-Augmented Generation (Self-RAG), qui améliore la qualité et la fidélité factuelle d’un LLM grâce à une récupération ciblée et une auto-réflexion. Notre cadre entraîne un seul LLM arbitraire capable de récupérer dynamiquement des passages uniquement lorsqu’il est nécessaire, et de générer ainsi que de réfléchir aux passages récupérés et à ses propres générations à l’aide de tokens spéciaux, appelés tokens de réflexion. La génération de ces tokens de réflexion rend le modèle contrôlable durant la phase d’inférence, permettant ainsi d’ajuster son comportement aux exigences variées des tâches. Des expériences montrent que Self-RAG (7B et 13B de paramètres) surpasse significativement les meilleurs LLM et modèles augmentés par récupération sur un large éventail de tâches. Plus précisément, Self-RAG surpasser ChatGPT et Llama2-chat augmenté par récupération sur des tâches de question-réponse en domaine ouvert, de raisonnement et de vérification factuelle, et il réalise des gains importants en améliorant la fidélité factuelle et la précision des citations dans les générations longues par rapport à ces modèles.