HyperAIHyperAI

Command Palette

Search for a command to run...

GPT-4o als Gold Standard: Ein skalierbarer und allgemeiner Ansatz zur Filterung von Pretraining-Daten für Sprachmodelle

Jifan Zhang Ziyue Luo Jia Liu Ness Shroff Robert Nowak

Zusammenfassung

Große Sprachmodelle erfordern umfangreiche, hochwertige Trainingsdaten, doch die effektive Filterung von web-skaligen Datensätzen bleibt eine erhebliche Herausforderung. Diese Arbeit zeigt, dass GPT-4o bemerkenswert effektiv bei der Identifizierung hochwertiger Trainingsdaten ist, jedoch aufgrund seiner prohibitiven Kosten für den Einsatz im Web-Skalen-Bereich praktisch unbrauchbar ist. Wir stellen SIEVE vor, eine leichtgewichtige Alternative, die die Genauigkeit von GPT-4o bei weniger als 1 % der Kosten erreicht. SIEVE ermöglicht bis zu 500 Filteroperationen für den Preis einer einzigen GPT-4o-Filteranfrage. Der Schlüssel von SIEVE liegt in der nahtlosen Integration von GPT-4o und leichtgewichtigen Text-Klassifikationsmodellen, wobei durch aktives Lernen diese Modelle im Hintergrund mit einer geringen Anzahl von GPT-4o-Aufrufen feinabgestimmt werden. Sobald trainiert, erzielt SIEVE eine vergleichbare Leistung wie GPT-4o, jedoch bei einem Bruchteil der Kosten. Durch verschiedene Filter-Prompts kann SIEVE effizient hochwertige Daten für allgemeine oder spezialisierte Domänen aus web-skaligen Korpora kuratieren – eine wertvolle Fähigkeit angesichts der derzeitigen Knappheit hochwertiger domänenspezifischer Datensätze. Umfangreiche Experimente mit automatisierten und menschlichen Bewertungsmaßstäben zeigen, dass SIEVE und GPT-4o bei fünf hochspezifischen Filter-Prompts ähnliche Leistungen erzielen. Zudem demonstrieren wir bei der Qualitätsfilterung von Web-Crawl-Datensätzen, dass SIEVE im Vergleich zu aktuellen state-of-the-art-Methoden zur Qualitätsfilterung im DataComp-LM-Wettbewerb zur Auswahl von LLM-Pretraining-Daten weitere Verbesserungen erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GPT-4o als Gold Standard: Ein skalierbarer und allgemeiner Ansatz zur Filterung von Pretraining-Daten für Sprachmodelle | Paper | HyperAI