GPT-4o als Gold Standard: Ein skalierbarer und allgemeiner Ansatz zur Filterung von Pretraining-Daten für Sprachmodelle

Große Sprachmodelle erfordern umfangreiche, hochwertige Trainingsdaten, doch die effektive Filterung von web-skaligen Datensätzen bleibt eine erhebliche Herausforderung. Diese Arbeit zeigt, dass GPT-4o bemerkenswert effektiv bei der Identifizierung hochwertiger Trainingsdaten ist, jedoch aufgrund seiner prohibitiven Kosten für den Einsatz im Web-Skalen-Bereich praktisch unbrauchbar ist. Wir stellen SIEVE vor, eine leichtgewichtige Alternative, die die Genauigkeit von GPT-4o bei weniger als 1 % der Kosten erreicht. SIEVE ermöglicht bis zu 500 Filteroperationen für den Preis einer einzigen GPT-4o-Filteranfrage. Der Schlüssel von SIEVE liegt in der nahtlosen Integration von GPT-4o und leichtgewichtigen Text-Klassifikationsmodellen, wobei durch aktives Lernen diese Modelle im Hintergrund mit einer geringen Anzahl von GPT-4o-Aufrufen feinabgestimmt werden. Sobald trainiert, erzielt SIEVE eine vergleichbare Leistung wie GPT-4o, jedoch bei einem Bruchteil der Kosten. Durch verschiedene Filter-Prompts kann SIEVE effizient hochwertige Daten für allgemeine oder spezialisierte Domänen aus web-skaligen Korpora kuratieren – eine wertvolle Fähigkeit angesichts der derzeitigen Knappheit hochwertiger domänenspezifischer Datensätze. Umfangreiche Experimente mit automatisierten und menschlichen Bewertungsmaßstäben zeigen, dass SIEVE und GPT-4o bei fünf hochspezifischen Filter-Prompts ähnliche Leistungen erzielen. Zudem demonstrieren wir bei der Qualitätsfilterung von Web-Crawl-Datensätzen, dass SIEVE im Vergleich zu aktuellen state-of-the-art-Methoden zur Qualitätsfilterung im DataComp-LM-Wettbewerb zur Auswahl von LLM-Pretraining-Daten weitere Verbesserungen erreicht.