vor 9 Tagen

The Pile: Ein 800 GB großer Datensatz vielfältiger Texte für Sprachmodelle

Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster, Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, Connor Leahy

Details der Forschungsarbeit anzeigen

The Pile: Ein 800 GB großer Datensatz vielfältiger Texte für Sprachmodelle

Abstract

Neuere Arbeiten haben gezeigt, dass eine erhöhte Vielfalt im Trainingsdatensatz die allgemeine Querdomänen-Kenntnis und die Fähigkeit zur nachgeschalteten Generalisierung bei großskaligen Sprachmodellen verbessert. Ausgehend davon präsentieren wir \textit{The Pile}: einen 825 GiB umfassenden englischsprachigen Textkorpus, der speziell für die Ausbildung großskaliger Sprachmodelle konzipiert ist. The Pile basiert auf 22 unterschiedlichen, hochwertigen Teilkorpora – sowohl bestehenden als auch neu erstellten –, wobei viele dieser Teile aus akademischen oder professionellen Quellen stammen. Unsere Bewertung der ungetunten Leistung von GPT-2 und GPT-3 auf The Pile zeigt, dass diese Modelle bei vielen Komponenten, insbesondere akademischem Schreiben, Schwierigkeiten haben. Im Gegensatz dazu zeigen Modelle, die auf The Pile trainiert wurden, eine signifikante Verbesserung sowohl gegenüber Raw CC als auch gegenüber CC-100 auf allen Komponenten des Korpus, gleichzeitig mit einer verbesserten Leistung bei nachgeschalteten Evaluierungen. Durch eine detaillierte explorative Analyse dokumentieren wir potenziell besorgniserregende Aspekte des Datensatzes für zukünftige Nutzer. Die für die Erstellung verwendete Codebasis stellen wir öffentlich zur Verfügung.