HyperAIHyperAI

Command Palette

Search for a command to run...

The Pile: Ein 800 GB großer Datensatz vielfältiger Texte für Sprachmodelle

Zusammenfassung

Neuere Arbeiten haben gezeigt, dass eine erhöhte Vielfalt im Trainingsdatensatz die allgemeine Querdomänen-Kenntnis und die Fähigkeit zur nachgeschalteten Generalisierung bei großskaligen Sprachmodellen verbessert. Ausgehend davon präsentieren wir \textit{The Pile}: einen 825 GiB umfassenden englischsprachigen Textkorpus, der speziell für die Ausbildung großskaliger Sprachmodelle konzipiert ist. The Pile basiert auf 22 unterschiedlichen, hochwertigen Teilkorpora – sowohl bestehenden als auch neu erstellten –, wobei viele dieser Teile aus akademischen oder professionellen Quellen stammen. Unsere Bewertung der ungetunten Leistung von GPT-2 und GPT-3 auf The Pile zeigt, dass diese Modelle bei vielen Komponenten, insbesondere akademischem Schreiben, Schwierigkeiten haben. Im Gegensatz dazu zeigen Modelle, die auf The Pile trainiert wurden, eine signifikante Verbesserung sowohl gegenüber Raw CC als auch gegenüber CC-100 auf allen Komponenten des Korpus, gleichzeitig mit einer verbesserten Leistung bei nachgeschalteten Evaluierungen. Durch eine detaillierte explorative Analyse dokumentieren wir potenziell besorgniserregende Aspekte des Datensatzes für zukünftige Nutzer. Die für die Erstellung verwendete Codebasis stellen wir öffentlich zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp