il y a 9 jours

AdaSPEC : Distillation sélective des connaissances pour des décodeurs spéculatifs efficaces

Yuezhou Hu Jiaxin Guo Xinyu Feng Tuo Zhao

Résumé

Le décodage spéculatif (Speculative Decoding, SD) accélère l'inférence des grands modèles linguistiques en utilisant un petit modèle de brouillon pour générer des prédictions, qui sont ensuite validées par un modèle cible plus large. L'efficacité du SD repose sur l'alignement entre ces deux modèles, généralement amélioré par la distillation de connaissances (Knowledge Distillation, KD). Toutefois, les méthodes classiques de KD visent à minimiser la divergence de Kullback-Leibler (KL) entre le modèle de brouillon et le modèle cible sur tous les tokens, une approche qui s'écarte de l'objectif réel du SD : maximiser le taux d'acceptation des tokens. En conséquence, les modèles de brouillon peinent souvent à intégrer pleinement les connaissances du modèle cible en raison de contraintes de capacité, entraînant des performances sous-optimales. Pour surmonter ce défi, nous proposons AdaSPEC, une nouvelle méthode qui intègre un filtrage sélectif des tokens dans le processus de distillation. AdaSPEC utilise un modèle de référence pour identifier et éliminer les tokens difficiles à modéliser, permettant ainsi la distillation d’un modèle de brouillon mieux aligné sur le modèle cible pour les tokens plus simples. Cette approche améliore le taux global d’acceptation des tokens sans compromettre la qualité de la génération. Nous évaluons AdaSPEC sur diverses tâches, notamment le raisonnement arithmétique, le suivi d'instructions, la génération de code et la synthèse, en utilisant des configurations de modèles de 31M/1,4B et 350M/2,7B paramètres. Nos résultats montrent que AdaSPEC surpasse de manière constante la méthode de pointe DistillSpec, atteignant des taux d'acceptation supérieurs sur toutes les tâches (jusqu'à 15 %). Le code est disponible publiquement à l'adresse suivante : https://github.com/yuezhouhu/adaspec.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

AdaSPEC : Distillation sélective des connaissances pour des décodeurs spéculatifs efficaces

Yuezhou Hu Jiaxin Guo Xinyu Feng Tuo Zhao

Résumé

Construire l'IA avec l'IA

Hyper Newsletters