il y a 13 jours

Améliorer la capacité des grands modèles linguistiques à générer des données

Dong-Ho Lee, Jay Pujara, Mohit Sewak, Ryen W. White, Sujay Kumar Jauhar

Résumé

Bien que les grands modèles linguistiques (LLM) aient considérablement progressé l’état de l’art en traitement du langage naturel (NLP), leur déploiement pour des applications spécifiques reste difficile en raison de coûts élevés, de latences, de contrôles limités, ainsi que de préoccupations liées à la vie privée et à la sécurité. Dans certains cas, les modèles entraînables restent donc préférés. Toutefois, ces modèles nécessitent encore des données étiquetées par des humains pour atteindre leurs meilleurs performances, ce qui est coûteux et chronophage à obtenir. Afin de relever ce défi, plusieurs techniques visant à réduire l’effort humain ont été proposées, notamment l’étiquetage ou la génération de données à l’aide de LLM. Bien que ces méthodes soient efficaces pour certaines applications, elles rencontrent en pratique des difficultés dans des scénarios réels. L’étiquetage de données exige une sélection soigneuse des échantillons, tandis que la génération de données nécessite une conception précise de prompts adaptés à chaque tâche. Dans cet article, nous proposons une pipeline unifiée de création de données qui nécessite uniquement un exemple de formatage, et qui s’applique à une large gamme de tâches, y compris celles traditionnellement complexes, notamment celles comportant des espaces d’étiquettes dépourvus de sens sémantique. Nos expérimentations montrent que les LLM capables de suivre des instructions sont des créateurs de données extrêmement rentables, et que les modèles entraînés avec ces données surpassent, sur des évaluations hors distribution (out-of-distribution), les performances des modèles entraînés sur des données étiquetées par des humains (jusqu’à 17,5 % de gain), tout en maintenant des performances comparables sur des tâches à distribution in-distribution. Ces résultats ont des implications importantes pour la robustesse des systèmes NLP déployés dans des environnements réels.