Amélioration des modèles linguistiques par récupération à partir de trillions de tokens

Nous améliorons les modèles linguistiques auto-régressifs en conditionnant leur génération sur des extraits de documents extraits à partir d’un grand corpus, sur la base de similarité locale avec les jetons précédents. Grâce à une base de données de 2 billions de jetons, notre modèle Retrieval-Enhanced Transformer (RETRO) atteint des performances comparables à celles de GPT-3 et Jurassic-1 sur le Pile, tout en utilisant 25 fois moins de paramètres. Après une phase de fine-tuning, les performances de RETRO se transforment en efficacité sur des tâches descendantes exigeant une connaissance approfondie, telles que la réponse à des questions. RETRO combine un récupérateur Bert figé, un encodeur différentiable et un mécanisme d’attention croisée segmentée, permettant de prédire des jetons à partir d’un ordre de grandeur plus important de données que celles habituellement consommées durant l’entraînement. Bien que nous entraînions généralement RETRO depuis le début, il est également possible de rapidement adapter des modèles pré-entraînés en leur ajoutant une fonctionnalité de récupération tout en maintenant de bonnes performances. Ce travail ouvre de nouvelles voies pour améliorer les modèles linguistiques grâce à une mémoire explicite à une échelle sans précédent.