GOLD : Distillation de connaissances généralisée par la génération de données linguistiques guidée hors distribution

Le transfert de connaissances à partir de grands modèles linguistiques (LLMs) est essentiel pour le déploiement efficace des modèles de langage. Des travaux antérieurs ont proposé la génération de données à l'aide de LLMs pour préparer des modèles distillés. Nous soutenons que la génération de données avec des LLMs est sujette à un échantillonnage principalement au centre de la distribution du contenu original. Cette limitation entrave l'apprentissage par le modèle distillé de la véritable distribution sous-jacente des données et favorise l'oubli des queues de distribution (échantillons à faible probabilité). Pour remédier à cela, nous proposons GOLD, un cadre générique pour la génération de données et le transfert de connaissances, qui utilise un mécanisme itératif guidé par les données hors distribution (out-of-distribution, OOD) pour les LLMs. En conséquence, les données générées améliorent la généralisabilité des modèles distillés. Une approche d'évaluation OOD basée sur l'énergie est également introduite pour traiter les données générées bruyantes. Nos expériences approfondies sur 10 tâches différentes de classification et de séquence-à-séquence en traitement du langage naturel (NLP) montrent que GOLD surpasse respectivement les méthodes précédentes et le LLM avec une amélioration moyenne de 5 % et 14 %. Nous montrerons également que la méthode proposée s'applique aux tâches moins explorées et nouvelles. Le code est disponible.