HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

TiKMiX: Datenbeeinflussung in dynamische Mischung für die Sprachmodell-Vortrainierung einbeziehen

Yifan Wang Binbin Liu Fengze Liu Yuanfan Guo Jiyao Deng Xuecheng Wu Weidong Zhou Xiaohuan Zhou Taifeng Wang

TiKMiX: Datenbeeinflussung in dynamische Mischung für die Sprachmodell-Vortrainierung einbeziehen

Abstract

Die Datenmischung, die bei der Vortrainierung eines Sprachmodells verwendet wird, ist ein entscheidender Faktor für dessen endgültige Leistungsfähigkeit. Eine statische Mischstrategie ist jedoch suboptimal, da sich die Lernpräferenzen des Modells für verschiedene Datendomänen im Verlauf des Trainings dynamisch verändern. Insbesondere die effiziente Beobachtung dieser sich verändernden Präferenzen stellt nach wie vor eine bedeutende Herausforderung dar. Um diesem Problem zu begegnen, stellen wir TiKMiX vor, eine Methode, die die Datenmischung dynamisch an die sich verändernden Präferenzen des Modells anpasst. TiKMiX führt den Begriff „Gruppenbeeinflussung“ (Group Influence) ein, eine effiziente Metrik zur Bewertung des Einflusses einzelner Datendomänen auf das Modell. Diese Metrik ermöglicht es, das Problem der Datenmischung als Suche nach einer optimalen, beeinflussungsmaximierenden Verteilung zu formulieren. Diese Aufgabe lösen wir mittels zweier Ansätze: TiKMiX-D für eine direkte Optimierung und TiKMiX-M, das einen Regressionsmodell verwendet, um eine überlegene Mischung vorherzusagen. Wir haben Modelle mit unterschiedlichen Parameternzahlen, bis hin zu bis zu 1 Billion Tokens, trainiert. TiKMiX-D übertrifft die Leistung von state-of-the-art-Methoden wie REGMIX, wobei lediglich 20 % der Rechenressourcen benötigt werden. TiKMiX-M erzielt im Durchschnitt eine Leistungssteigerung von 2 % über 9 nachgeschaltete Benchmark-Aufgaben. Unsere Experimente zeigen, dass sich die Datenvorlieben eines Modells mit dem Fortschritt und der Skalierung des Trainings verändern, und wir demonstrieren, dass eine dynamische Anpassung der Datenmischung basierend auf der Gruppenbeeinflussung – einer direkten Messung dieser Präferenzen – die Leistung erheblich verbessert, indem sie die Unterbewertung von Daten bei statischen Mischungsverhältnissen vermeidet.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
TiKMiX: Datenbeeinflussung in dynamische Mischung für die Sprachmodell-Vortrainierung einbeziehen | Forschungsarbeiten | HyperAI