vor 5 Stunden

Hao Liang Zhengyang Zhao Meiyi Qiang Mingrui Chen Lu Ma Rongyi Yu Hengyi Feng Shixuan Sun Zimo Meng Xiaochen Ma

Zusammenfassung

Daten-zentriertes Training hat sich als vielversprechender Ansatz zur Verbesserung großer Sprachmodelle (LLMs) etabliert, indem nicht nur die Modellparameter, sondern auch die Selektion, Zusammensetzung und Gewichtung der Trainingsdaten während des Optimierungsprozesses optimiert werden. Allerdings werden bestehende Methoden zur Datenauswahl, Optimierung von Datenmischungen und Neugewichtung von Daten häufig in isolierten Codebasen mit inkonsistenten Schnittstellen entwickelt, was Reproduzierbarkeit, faire Vergleiche und eine praktische Integration erschwert. In diesem Beitrag stellen wir DataFlex vor, ein einheitliches, daten-zentriertes Framework für dynamisches Training, das auf LLaMA-Factory aufbaut. DataFlex unterstützt drei zentrale Paradigmen der dynamischen Datenoptimierung: Sample-Selektion, Anpassung von Domänenmischungen und Sample-Neugewichtung, bleibt dabei vollständig kompatibel mit dem ursprünglichen Trainings-Workflow und bietet erweiterbare Trainer-Abstraktionen sowie modulare Komponenten. Dies ermöglicht einen nahtlosen Ersatz für das standardmäßige LLM-Training und vereinheitlicht modellabhängige Kernoperationen wie Embedding-Extraktion, Inference und Gradientenberechnung, einschließlich Unterstützung für skalierbare Szenarien wie DeepSpeed ZeRO-3. Wir führten umfassende Experimente mit verschiedenen daten-zentrierten Methoden durch. Die dynamische Datenauswahl übertrifft konsistent das statische Training mit vollständigen Daten auf dem MMLU-Benchmark sowohl für Mistral-7B als auch für Llama-3.2-3B. Für die Optimierung von Datenmischungen verbessern DoReMi und ODM im Vergleich zu Standardanteilen sowohl die MMLU-Genauigkeit als auch die Perplexität auf Korpus-Ebene beim Pretraining von Qwen2.5-1.5B auf SlimPajama mit Token-Mengen von 6 Mrd. bzw. 30 Mrd. Zudem erzielt DataFlex im Vergleich zu den ursprünglichen Implementierungen konsistente Verbesserungen bei der Laufzeit. Diese Ergebnisse belegen, dass DataFlex eine effektive, effiziente und reproduzierbare Infrastruktur für daten-zentriertes dynamisches Training von LLMs bereitstellt.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Stunden

Hao Liang Zhengyang Zhao Meiyi Qiang Mingrui Chen Lu Ma Rongyi Yu Hengyi Feng Shixuan Sun Zimo Meng Xiaochen Ma

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Stunden

Hao Liang Zhengyang Zhao Meiyi Qiang Mingrui Chen Lu Ma Rongyi Yu Hengyi Feng Shixuan Sun Zimo Meng Xiaochen Ma

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

DataFlex: Ein einheitliches Framework für datenzentriertes dynamisches Training von Large Language Models

Hao Liang Zhengyang Zhao Meiyi Qiang Mingrui Chen Lu Ma Rongyi Yu Hengyi Feng Shixuan Sun Zimo Meng Xiaochen Ma15 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DataFlex: Ein einheitliches Framework für datenzentriertes dynamisches Training von Large Language Models

Hao Liang Zhengyang Zhao Meiyi Qiang Mingrui Chen Lu Ma Rongyi Yu Hengyi Feng Shixuan Sun Zimo Meng Xiaochen Ma15 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DataFlex: Ein einheitliches Framework für datenzentriertes dynamisches Training von Large Language Models

Hao Liang Zhengyang Zhao Meiyi Qiang Mingrui Chen Lu Ma Rongyi Yu Hengyi Feng Shixuan Sun Zimo Meng Xiaochen Ma15 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Hao Liang Zhengyang Zhao Meiyi Qiang Mingrui Chen Lu Ma Rongyi Yu Hengyi Feng Shixuan Sun Zimo Meng Xiaochen Ma

Hao Liang Zhengyang Zhao Meiyi Qiang Mingrui Chen Lu Ma Rongyi Yu Hengyi Feng Shixuan Sun Zimo Meng Xiaochen Ma

Hao Liang Zhengyang Zhao Meiyi Qiang Mingrui Chen Lu Ma Rongyi Yu Hengyi Feng Shixuan Sun Zimo Meng Xiaochen Ma