HyperAIHyperAI
il y a 17 jours

GPT-4o en tant que référence de qualité : une approche évolutif et polyvalente pour filtrer les données d'entraînement des modèles linguistiques

Jifan Zhang, Ziyue Luo, Jia Liu, Ness Shroff, Robert Nowak
GPT-4o en tant que référence de qualité : une approche évolutif et polyvalente pour filtrer les données d'entraînement des modèles linguistiques
Résumé

Les grands modèles linguistiques nécessitent d’importants volumes de données d’entraînement de haute qualité, mais le filtrage efficace des jeux de données à l’échelle du web reste un défi majeur. Ce papier démontre que GPT-4o est remarquablement efficace pour identifier des données d’entraînement de haute qualité, bien que son coût prohibitif le rende impraticable à l’échelle du web. Nous proposons SIEVE, une solution légère qui atteint une précision équivalente à celle de GPT-4o pour moins de 1 % du coût. SIEVE peut effectuer jusqu’à 500 opérations de filtrage au coût d’une seule requête de filtrage via GPT-4o. Le principe central de SIEVE réside dans une intégration fluide entre GPT-4o et des modèles de classification de texte légers, utilisant l’apprentissage actif pour ajuster finement ces derniers en arrière-plan, à l’aide d’un petit nombre d’appels à GPT-4o. Une fois entraînés, ces modèles fonctionnent aussi bien que GPT-4o, mais à un coût négligeable. Grâce à différentes instructions de filtrage, SIEVE permet d’extraire efficacement des données de haute qualité pour des domaines généraux ou spécialisés à partir de corpus à l’échelle du web — une capacité particulièrement précieuse compte tenu de la rareté actuelle de jeux de données spécialisés de haute qualité. Des expériences étendues, évaluées à l’aide de métriques automatiques et humaines, montrent que SIEVE et GPT-4o atteignent des performances similaires sur cinq instructions de filtrage très spécifiques. En outre, lors du filtrage de la qualité sur des jeux de données issues de crawl web, nous démontrons que SIEVE améliore davantage les méthodes de filtrage de qualité les plus avancées dans le cadre du défi DataComp-LM pour la sélection de données d’entraînement de grands modèles linguistiques.

GPT-4o en tant que référence de qualité : une approche évolutif et polyvalente pour filtrer les données d'entraînement des modèles linguistiques | Articles de recherche récents | HyperAI