il y a 9 jours

The Pile : Un jeu de données de 800 Go de texte diversifié pour la modélisation linguistique

Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, Connor Leahy

Voir les détails de l'article

The Pile : Un jeu de données de 800 Go de texte diversifié pour la modélisation linguistique

Résumé

Des travaux récents ont démontré que l’augmentation de la diversité des jeux de données d’entraînement améliore les connaissances générales transverses aux domaines et la capacité de généralisation en aval pour les grands modèles linguistiques. Dans cette optique, nous présentons \textit{The Pile} : un corpus de texte anglais de 825 GiB spécifiquement conçu pour l’entraînement de grands modèles linguistiques. Le Pile est constitué de 22 sous-ensembles diversifiés et de haute qualité — certains existants, d’autres nouvellement construits — dont plusieurs proviennent de sources académiques ou professionnelles. Notre évaluation de la performance non ajustée de GPT-2 et GPT-3 sur The Pile montre que ces modèles éprouvent des difficultés sur de nombreux de ses composants, notamment dans le domaine de l’écriture académique. En revanche, les modèles entraînés sur The Pile surpassent significativement à la fois Raw CC et CC-100 sur l’ensemble des composants du corpus, tout en améliorant leurs performances sur les évaluations en aval. À travers une analyse exploratoire approfondie, nous documentons certains aspects préoccupants du jeu de données susceptibles d’intéresser les utilisateurs potentiels. Nous mettons publiquement à disposition le code utilisé dans la construction de The Pile.