HyperAI

L'inférence des modèles de langage (LLM) est accélérée par la décodage spéculatif, une technique utilisant un modèle léger pour prédire plusieurs tokens avant qu'ils ne soient vérifiés par le modèle principal. Bien que cette méthode améliore le débit, son évaluation reste fragmentée et peu représentative des environnements de production réels. Pour combler ces lacunes, les chercheurs ont introduit SPEED-Bench, un nouveau benchmark unifié conçu pour tester la qualité de la spéculation et les gains de vitesse dans des conditions de charge variées et réalistes. Contrairement aux benchmarks existants qui utilisent de petits ensembles de données et des séquences courtes, SPEED-Bench se compose de deux ensembles de données spécialisés et d'un cadre de mesure unifié. Le premier ensemble, nommé "Qualitatif", vise à évaluer la précision des prédictions du modèle spéculatif sur une grande diversité sémantique. Il regroupe 880 prompts répartis en 11 catégories, incluant la programmation, les mathématiques, la création de contenu et les tâches multilingues. Une méthode de sélection algorithmique assure que ces échantillons couvrent un large spectre sémantique, évitant les redondances et permettant une évaluation fiable des performances sur des tâches à faible entropie, comme le code, et à haute entropie, comme le jeu de rôle. Le second ensemble, "Débit", reproduit des scénarios de charge de production réels. Il utilise des longueurs de séquences d'entrée fixes allant de 1 000 à 32 000 tokens, reflétant l'importance croissante des applications à contexte long. Ce jeu de données soutient des tailles de lot élevées jusqu'à 512, permettant d'analyser comment les performances changent lorsqu'un système passe d'une limite de calcul à une limite de mémoire. L'évaluation ne repose pas sur des tokens aléatoires, une pratique courante mais trompeuse qui surestime le débit de près de 23 % et ne simule pas correctement le routage des experts dans les modèles hybrides. Le cadre de mesure intégré à SPEED-Bench s'interface avec des moteurs d'inférence de niveau industriel tels que TensorRT-LLM, vLLM et SGLang. Il garantit des comparaisons équitables en prétraitant les tokens et les formats de prompts, éliminant ainsi les variations dues à l'implémentation des moteurs. Les métriques collectées incluent le taux de génération par requête, le débit global et la longueur moyenne des tokens acceptés. Les premiers résultats obtenus avec SPEED-Bench révèlent que la performance de la spéculation dépend fortement du domaine d'application. Les tâches comme la programmation et les mathématiques offrent des taux d'acceptation nettement supérieurs aux tâches créatives. De plus, le benchmark met en évidence les compromis entre les différentes méthodes de spéculation. Par exemple, les têtes MTP natives montrent des performances supérieures aux approches post-entraînées comme EAGLE3. Il a également été démontré que des optimisations agressives, telles que l'élagage du vocabulaire, peuvent dégrader les performances sur des entrées rares, des défauts invisibles dans les benchmarks moins diversifiés. En fournissant des données ouvertes et un cadre de test rigoureux, SPEED-Bench établit une nouvelle norme pour l'évaluation de la décodage spéculatif. Il permet aux chercheurs et aux ingénieurs de comparer objectivement leurs algorithmes et d'anticiper les comportements réels des systèmes avant leur déploiement à grande échelle.

Liens associés

Liens associés

Liens associés

Tutoriel En Ligne | Qwen 3.5 27B Distillation Des Capacités d'inférence De Claude 4.6 Opus : Équilibre Entre Production De Haute Qualité Et Déploiement À Faible Barrière

Tutoriel En Ligne | Qwen 3.5 27B Distillation Des Capacités d'inférence De Claude 4.6 Opus : Équilibre Entre Production De Haute Qualité Et Déploiement À Faible Barrière

Command Palette

SPEED-Bench : nouveau benchmark unifié pour le décodage spéculatif

Liens associés

Command Palette

SPEED-Bench : nouveau benchmark unifié pour le décodage spéculatif

Liens associés

Command Palette

SPEED-Bench : nouveau benchmark unifié pour le décodage spéculatif

Liens associés

Tutoriel En Ligne | Qwen 3.5 27B Distillation Des Capacités d'inférence De Claude 4.6 Opus : Équilibre Entre Production De Haute Qualité Et Déploiement À Faible Barrière

Tutoriel En Ligne | Qwen 3.5 27B Distillation Des Capacités d'inférence De Claude 4.6 Opus : Équilibre Entre Production De Haute Qualité Et Déploiement À Faible Barrière