HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration des modèles linguistiques par récupération à partir de trillions de tokens

Résumé

Nous améliorons les modèles linguistiques auto-régressifs en conditionnant leur génération sur des extraits de documents extraits à partir d’un grand corpus, sur la base de similarité locale avec les jetons précédents. Grâce à une base de données de 2 billions de jetons, notre modèle Retrieval-Enhanced Transformer (RETRO) atteint des performances comparables à celles de GPT-3 et Jurassic-1 sur le Pile, tout en utilisant 25 fois moins de paramètres. Après une phase de fine-tuning, les performances de RETRO se transforment en efficacité sur des tâches descendantes exigeant une connaissance approfondie, telles que la réponse à des questions. RETRO combine un récupérateur Bert figé, un encodeur différentiable et un mécanisme d’attention croisée segmentée, permettant de prédire des jetons à partir d’un ordre de grandeur plus important de données que celles habituellement consommées durant l’entraînement. Bien que nous entraînions généralement RETRO depuis le début, il est également possible de rapidement adapter des modèles pré-entraînés en leur ajoutant une fonctionnalité de récupération tout en maintenant de bonnes performances. Ce travail ouvre de nouvelles voies pour améliorer les modèles linguistiques grâce à une mémoire explicite à une échelle sans précédent.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp