HyperAIHyperAI
vor 9 Tagen

Pythia: Eine Suite zur Analyse großer Sprachmodelle über Training und Skalierung hinweg

Stella Biderman, Hailey Schoelkopf, Quentin Anthony, Herbie Bradley, Kyle O&#39, Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika, Oskar van der Wal
Pythia: Eine Suite zur Analyse großer Sprachmodelle über Training und Skalierung hinweg
Abstract

Wie entwickeln und evolvieren große Sprachmodelle (LLMs) während des Trainings? Wie verändern sich diese Muster mit zunehmender Modellgröße? Um diese Fragen zu beantworten, führen wir \textit{Pythia} ein – eine Sammlung von 16 LLMs, die alle auf öffentlichen Daten trainiert wurden, wobei die Daten in exakt derselben Reihenfolge verarbeitet wurden und die Modellgrößen zwischen 70 Mio. und 12 Mrd. Parametern variieren. Für jedes der 16 Modelle stellen wir öffentlich 154 Checkpoints bereit, zusammen mit Werkzeugen zum Herunterladen und exakten Rekonstruieren der jeweiligen Trainingsdaten-Loader für weiterführende Untersuchungen. Wir intendieren, \textit{Pythia} als Plattform für Forschung in zahlreichen Bereichen zu nutzen, und präsentieren mehrere Fallstudien mit neuen Erkenntnissen zu Themen wie Memorisation, dem Einfluss der Begriffshäufigkeit auf die Few-Shot-Leistung sowie der Reduzierung von Geschlechterbias. Wir zeigen, dass diese hochgradig kontrollierte Trainingsumgebung neue Erkenntnisse über LLMs und deren Trainingsdynamik ermöglicht. Die trainierten Modelle, Analyse-Code, Trainingscode und Trainingsdaten sind unter \url{https://github.com/EleutherAI/pythia} verfügbar.