il y a 3 mois

Amélioration des modèles linguistiques par récupération à partir de trillions de tokens

Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon Osindero, Karen Simonyan, Jack W. Rae, Erich Elsen, Laurent Sifre

Voir les détails de l'article

Amélioration des modèles linguistiques par récupération à partir de trillions de tokens

Résumé

Nous améliorons les modèles linguistiques auto-régressifs en conditionnant leur génération sur des extraits de documents extraits à partir d’un grand corpus, sur la base de similarité locale avec les jetons précédents. Grâce à une base de données de 2 billions de jetons, notre modèle Retrieval-Enhanced Transformer (RETRO) atteint des performances comparables à celles de GPT-3 et Jurassic-1 sur le Pile, tout en utilisant 25 fois moins de paramètres. Après une phase de fine-tuning, les performances de RETRO se transforment en efficacité sur des tâches descendantes exigeant une connaissance approfondie, telles que la réponse à des questions. RETRO combine un récupérateur Bert figé, un encodeur différentiable et un mécanisme d’attention croisée segmentée, permettant de prédire des jetons à partir d’un ordre de grandeur plus important de données que celles habituellement consommées durant l’entraînement. Bien que nous entraînions généralement RETRO depuis le début, il est également possible de rapidement adapter des modèles pré-entraînés en leur ajoutant une fonctionnalité de récupération tout en maintenant de bonnes performances. Ce travail ouvre de nouvelles voies pour améliorer les modèles linguistiques grâce à une mémoire explicite à une échelle sans précédent.