Command Palette
Search for a command to run...
Distillation en politique noire de grands modèles linguistiques
Tianzhu Ye Li Dong Zewen Chi Xun Wu Shaohan Huang Furu Wei

Résumé
La distillation en boîte noire permet de créer des modèles linguistiques de grande taille (LLM) étudiants en n’apprenant que à partir des sorties textuelles d’un modèle enseignant propriétaire, sans accès aux logits internes ou aux paramètres de ce dernier. Dans ce travail, nous introduisons la Distillation Générative Adversarielle (GAD), qui permet une distillation en politique optimale (on-policy) et en boîte noire. GAD modélise le LLM étudiant comme un générateur et entraîne un discriminateur à distinguer ses réponses de celles du modèle enseignant, mettant ainsi en place un jeu minimax. Le discriminateur agit alors comme un modèle de récompense en politique optimale, évoluant conjointement avec l’étudiant et fournissant ainsi un retour stable et adaptable. Les résultats expérimentaux montrent que GAD dépasse de manière cohérente la distillation classique des connaissances au niveau de la séquence. En particulier, le modèle Qwen2.5-14B-Instruct (étudiant), entraîné avec GAD, atteint une performance comparable à celle de son modèle enseignant, GPT-5-Chat, sur l’évaluation automatique LMSYS-Chat. Ces résultats établissent GAD comme une approche prometteuse et efficace pour la distillation des LLM en boîte noire.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.