HyperAIHyperAI

Command Palette

Search for a command to run...

The Pile : Un jeu de données de 800 Go de texte diversifié pour la modélisation linguistique

Résumé

Des travaux récents ont démontré que l’augmentation de la diversité des jeux de données d’entraînement améliore les connaissances générales transverses aux domaines et la capacité de généralisation en aval pour les grands modèles linguistiques. Dans cette optique, nous présentons \textit{The Pile} : un corpus de texte anglais de 825 GiB spécifiquement conçu pour l’entraînement de grands modèles linguistiques. Le Pile est constitué de 22 sous-ensembles diversifiés et de haute qualité — certains existants, d’autres nouvellement construits — dont plusieurs proviennent de sources académiques ou professionnelles. Notre évaluation de la performance non ajustée de GPT-2 et GPT-3 sur The Pile montre que ces modèles éprouvent des difficultés sur de nombreux de ses composants, notamment dans le domaine de l’écriture académique. En revanche, les modèles entraînés sur The Pile surpassent significativement à la fois Raw CC et CC-100 sur l’ensemble des composants du corpus, tout en améliorant leurs performances sur les évaluations en aval. À travers une analyse exploratoire approfondie, nous documentons certains aspects préoccupants du jeu de données susceptibles d’intéresser les utilisateurs potentiels. Nous mettons publiquement à disposition le code utilisé dans la construction de The Pile.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp