FineWeb2 : Une seule pipeline pour les adapter toutes -- Adaptation du traitement des données d'apprentissage préalable à chaque langue

L'entraînement préalable des modèles de langage grand format (LLMs) d'avant-garde nécessite de grandes quantités de données textuelles propres et diversifiées. Bien que le développement ouvert de grands ensembles de données d'entraînement en anglais de haute qualité ait connu des progrès considérables récemment, l'entraînement de modèles de langage multilingues performants reste un défi, principalement en raison de la difficulté inhérente à adapter les pipelines de filtrage et de déduplication à un grand nombre de langues. Dans cette étude, nous présentons une nouvelle chaîne de traitement pour la création d'ensembles de données d'entraînement préalable basée sur FineWeb, qui peut être automatiquement adaptée pour prendre en charge n'importe quelle langue. Nous évaluons exhaustivement nos choix de conception de pipeline sur un ensemble de neuf langues variées, guidés par un ensemble d'évaluations significatives et informatives sélectionnées selon un processus novateur basé sur des critères mesurables. Finalement, nous montrons que notre pipeline peut être utilisé pour créer des corpus non anglophones générant des modèles plus performants que ceux issus des ensembles de données précédents. Nous introduisons également une approche simple et rigoureuse pour rééquilibrer les ensembles de données, tenant compte à la fois du nombre de duplications et de la qualité, ce qui offre une amélioration supplémentaire des performances. Enfin, nous mettons à l'échelle notre pipeline pour couvrir plus de 1000 langues en utilisant près de 100 instantanés Common Crawl, afin de produire FineWeb2, un nouveau jeu de données multilingue d'une taille totale de 20 téraoctets (5 milliards de documents), que nous mettons à disposition avec nos codes sources pour le pipeline, l'entraînement et l'évaluation.