Command Palette
Search for a command to run...
AdaSPEC : Distillation sélective des connaissances pour des décodeurs spéculatifs efficaces
Yuezhou Hu Jiaxin Guo Xinyu Feng Tuo Zhao

Résumé
Le décodage spéculatif (Speculative Decoding, SD) accélère l'inférence des grands modèles linguistiques en utilisant un petit modèle de brouillon pour générer des prédictions, qui sont ensuite validées par un modèle cible plus large. L'efficacité du SD repose sur l'alignement entre ces deux modèles, généralement amélioré par la distillation de connaissances (Knowledge Distillation, KD). Toutefois, les méthodes classiques de KD visent à minimiser la divergence de Kullback-Leibler (KL) entre le modèle de brouillon et le modèle cible sur tous les tokens, une approche qui s'écarte de l'objectif réel du SD : maximiser le taux d'acceptation des tokens. En conséquence, les modèles de brouillon peinent souvent à intégrer pleinement les connaissances du modèle cible en raison de contraintes de capacité, entraînant des performances sous-optimales. Pour surmonter ce défi, nous proposons AdaSPEC, une nouvelle méthode qui intègre un filtrage sélectif des tokens dans le processus de distillation. AdaSPEC utilise un modèle de référence pour identifier et éliminer les tokens difficiles à modéliser, permettant ainsi la distillation d’un modèle de brouillon mieux aligné sur le modèle cible pour les tokens plus simples. Cette approche améliore le taux global d’acceptation des tokens sans compromettre la qualité de la génération. Nous évaluons AdaSPEC sur diverses tâches, notamment le raisonnement arithmétique, le suivi d'instructions, la génération de code et la synthèse, en utilisant des configurations de modèles de 31M/1,4B et 350M/2,7B paramètres. Nos résultats montrent que AdaSPEC surpasse de manière constante la méthode de pointe DistillSpec, atteignant des taux d'acceptation supérieurs sur toutes les tâches (jusqu'à 15 %). Le code est disponible publiquement à l'adresse suivante : https://github.com/yuezhouhu/adaspec.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.