HyperAIHyperAI
vor 2 Monaten

FineWeb2: Eine Pipeline für alle Sprachen – Anpassung der Vortrainingsdatenverarbeitung

Guilherme Penedo, Hynek Kydl\u00ed\u010dek, Vinko Sabol\u010dec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf
FineWeb2: Eine Pipeline für alle Sprachen – Anpassung der Vortrainingsdatenverarbeitung
Abstract

Das Pre-Training von state-of-the-art großen Sprachmodellen (LLMs) erfordert enorme Mengen sauberen und vielfältigen Textdaten. Während die offene Entwicklung großer, hochwertiger englischer Pre-Training-Datensätze in letzter Zeit erhebliche Fortschritte gemacht hat, bleibt das Training leistungsfähiger mehrsprachiger LLMs eine Herausforderung, vor allem aufgrund der inhärenten Schwierigkeit, Filter- und Deduplikationspipelines für eine große Anzahl von Sprachen anzupassen. In dieser Arbeit stellen wir einen neuen Datensatz-Kuratierrahmen vor, der auf FineWeb basiert und automatisch angepasst werden kann, um jede Sprache zu unterstützen. Wir untersuchen unsere Pipeline-Designentscheidungen ausführlich anhand eines Satzes von neun verschiedenen Sprachen, geleitet durch eine Reihe sinnvoller und informativer Evaluationsaufgaben, die durch einen neuartigen Auswahlprozess basierend auf messbaren Kriterien gewählt wurden. Letztendlich zeigen wir, dass unsere Pipeline verwendet werden kann, um nicht-englisches Korpusmaterial zu erstellen, das leistungsfähigere Modelle als frühere Datensätze hervorbringt. Zudem führen wir einen einfachen und präzisen Ansatz zur Neuausgewogenheit der Datensätze ein, der sowohl die Duplikationsrate als auch die Qualität berücksichtigt und zusätzliche Leistungsverbesserungen bietet. Schließlich skalieren wir unsere Pipeline auf über 1000 Sprachen unter Verwendung von fast 100 Common Crawl Snapshots, um FineWeb2 zu produzieren – einen neuen 20-Terabyte-(5-Milliarden-Dokumente-) mehrsprachigen Datensatz, den wir zusammen mit unseren Pipeline-, Trainings- und Evaluationscodebasen veröffentlichen.

FineWeb2: Eine Pipeline für alle Sprachen – Anpassung der Vortrainingsdatenverarbeitung | Neueste Forschungsarbeiten | HyperAI