Command Palette
Search for a command to run...
DataFlex: Ein einheitliches Framework für datenzentriertes dynamisches Training von Large Language Models
DataFlex: Ein einheitliches Framework für datenzentriertes dynamisches Training von Large Language Models
Zusammenfassung
Daten-zentriertes Training hat sich als vielversprechender Ansatz zur Verbesserung großer Sprachmodelle (LLMs) etabliert, indem nicht nur die Modellparameter, sondern auch die Selektion, Zusammensetzung und Gewichtung der Trainingsdaten während des Optimierungsprozesses optimiert werden. Allerdings werden bestehende Methoden zur Datenauswahl, Optimierung von Datenmischungen und Neugewichtung von Daten häufig in isolierten Codebasen mit inkonsistenten Schnittstellen entwickelt, was Reproduzierbarkeit, faire Vergleiche und eine praktische Integration erschwert. In diesem Beitrag stellen wir DataFlex vor, ein einheitliches, daten-zentriertes Framework für dynamisches Training, das auf LLaMA-Factory aufbaut. DataFlex unterstützt drei zentrale Paradigmen der dynamischen Datenoptimierung: Sample-Selektion, Anpassung von Domänenmischungen und Sample-Neugewichtung, bleibt dabei vollständig kompatibel mit dem ursprünglichen Trainings-Workflow und bietet erweiterbare Trainer-Abstraktionen sowie modulare Komponenten. Dies ermöglicht einen nahtlosen Ersatz für das standardmäßige LLM-Training und vereinheitlicht modellabhängige Kernoperationen wie Embedding-Extraktion, Inference und Gradientenberechnung, einschließlich Unterstützung für skalierbare Szenarien wie DeepSpeed ZeRO-3. Wir führten umfassende Experimente mit verschiedenen daten-zentrierten Methoden durch. Die dynamische Datenauswahl übertrifft konsistent das statische Training mit vollständigen Daten auf dem MMLU-Benchmark sowohl für Mistral-7B als auch für Llama-3.2-3B. Für die Optimierung von Datenmischungen verbessern DoReMi und ODM im Vergleich zu Standardanteilen sowohl die MMLU-Genauigkeit als auch die Perplexität auf Korpus-Ebene beim Pretraining von Qwen2.5-1.5B auf SlimPajama mit Token-Mengen von 6 Mrd. bzw. 30 Mrd. Zudem erzielt DataFlex im Vergleich zu den ursprünglichen Implementierungen konsistente Verbesserungen bei der Laufzeit. Diese Ergebnisse belegen, dass DataFlex eine effektive, effiziente und reproduzierbare Infrastruktur für daten-zentriertes dynamisches Training von LLMs bereitstellt.