HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 10 jours

Distillation en politique noire de grands modèles linguistiques

Tianzhu Ye Li Dong Zewen Chi Xun Wu Shaohan Huang Furu Wei

Distillation en politique noire de grands modèles linguistiques

Résumé

La distillation en boîte noire permet de créer des modèles linguistiques de grande taille (LLM) étudiants en n’apprenant que à partir des sorties textuelles d’un modèle enseignant propriétaire, sans accès aux logits internes ou aux paramètres de ce dernier. Dans ce travail, nous introduisons la Distillation Générative Adversarielle (GAD), qui permet une distillation en politique optimale (on-policy) et en boîte noire. GAD modélise le LLM étudiant comme un générateur et entraîne un discriminateur à distinguer ses réponses de celles du modèle enseignant, mettant ainsi en place un jeu minimax. Le discriminateur agit alors comme un modèle de récompense en politique optimale, évoluant conjointement avec l’étudiant et fournissant ainsi un retour stable et adaptable. Les résultats expérimentaux montrent que GAD dépasse de manière cohérente la distillation classique des connaissances au niveau de la séquence. En particulier, le modèle Qwen2.5-14B-Instruct (étudiant), entraîné avec GAD, atteint une performance comparable à celle de son modèle enseignant, GPT-5-Chat, sur l’évaluation automatique LMSYS-Chat. Ces résultats établissent GAD comme une approche prometteuse et efficace pour la distillation des LLM en boîte noire.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Distillation en politique noire de grands modèles linguistiques | Articles de recherche | HyperAI