Pythia : Un ensemble d'outils pour l'analyse des grands modèles linguistiques au cours de l'entraînement et de l'échelle

Comment les grands modèles linguistiques (LLM) se développent-ils et évoluent-ils au cours de l’entraînement ? Comment ces dynamiques évoluent-elles avec l’augmentation de la taille des modèles ? Pour répondre à ces questions, nous introduisons \textit{Pythia}, une série de 16 grands modèles linguistiques entraînés sur des données publiques, présentées dans le même ordre exact, et dont la taille varie de 70 millions à 12 milliards de paramètres. Nous mettons à disposition publiquement 154 points de contrôle pour chacun des 16 modèles, accompagnés d’outils permettant de télécharger et de reconstruire précisément leurs chargeurs de données d’entraînement pour des études ultérieures. Nous concevons \textit{Pythia} afin de faciliter la recherche dans de nombreux domaines, et présentons plusieurs études de cas, incluant des résultats nouveaux sur la mémoire, l’effet de la fréquence des termes sur la performance en few-shot, ainsi que la réduction du biais de genre. Nous démontrons que cette configuration fortement contrôlée peut fournir des perspectives originales sur les grands modèles linguistiques et leurs dynamiques d’entraînement. Les modèles entraînés, le code d’analyse, le code d’entraînement et les données d’entraînement sont disponibles à l’adresse \url{https://github.com/EleutherAI/pythia}.