HyperAIHyperAI

Command Palette

Search for a command to run...

DataFlex: Ein einheitliches Framework für datenzentriertes dynamisches Training von Large Language Models

Zusammenfassung

Daten-zentriertes Training hat sich als vielversprechender Ansatz zur Verbesserung großer Sprachmodelle (LLMs) etabliert, indem nicht nur die Modellparameter, sondern auch die Selektion, Zusammensetzung und Gewichtung der Trainingsdaten während des Optimierungsprozesses optimiert werden. Allerdings werden bestehende Methoden zur Datenauswahl, Optimierung von Datenmischungen und Neugewichtung von Daten häufig in isolierten Codebasen mit inkonsistenten Schnittstellen entwickelt, was Reproduzierbarkeit, faire Vergleiche und eine praktische Integration erschwert. In diesem Beitrag stellen wir DataFlex vor, ein einheitliches, daten-zentriertes Framework für dynamisches Training, das auf LLaMA-Factory aufbaut. DataFlex unterstützt drei zentrale Paradigmen der dynamischen Datenoptimierung: Sample-Selektion, Anpassung von Domänenmischungen und Sample-Neugewichtung, bleibt dabei vollständig kompatibel mit dem ursprünglichen Trainings-Workflow und bietet erweiterbare Trainer-Abstraktionen sowie modulare Komponenten. Dies ermöglicht einen nahtlosen Ersatz für das standardmäßige LLM-Training und vereinheitlicht modellabhängige Kernoperationen wie Embedding-Extraktion, Inference und Gradientenberechnung, einschließlich Unterstützung für skalierbare Szenarien wie DeepSpeed ZeRO-3. Wir führten umfassende Experimente mit verschiedenen daten-zentrierten Methoden durch. Die dynamische Datenauswahl übertrifft konsistent das statische Training mit vollständigen Daten auf dem MMLU-Benchmark sowohl für Mistral-7B als auch für Llama-3.2-3B. Für die Optimierung von Datenmischungen verbessern DoReMi und ODM im Vergleich zu Standardanteilen sowohl die MMLU-Genauigkeit als auch die Perplexität auf Korpus-Ebene beim Pretraining von Qwen2.5-1.5B auf SlimPajama mit Token-Mengen von 6 Mrd. bzw. 30 Mrd. Zudem erzielt DataFlex im Vergleich zu den ursprünglichen Implementierungen konsistente Verbesserungen bei der Laufzeit. Diese Ergebnisse belegen, dass DataFlex eine effektive, effiziente und reproduzierbare Infrastruktur für daten-zentriertes dynamisches Training von LLMs bereitstellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp