Command Palette
Search for a command to run...
KLASS : Inférence rapide guidée par KL dans les modèles de diffusion masqués
Seo Hyun Kim Sunwoo Hong Hojung Jung Youngrok Park Se-Young Yun

Résumé
Les modèles de diffusion masqués ont démontré des résultats compétitifs sur diverses tâches, notamment la génération de langage. Toutefois, en raison de leur processus itératif d’amélioration, leur inférence est souvent entravée par une vitesse de génération lente et statique. Pour surmonter ce problème, nous introduisons une méthode d’échantillonnage rapide et efficace, nommée KL-Adaptive Stability Sampling (KLASS), qui exploite la divergence de Kullback-Leibler (KL) au niveau des tokens afin d’identifier des prédictions stables et à haute confiance. En démasquant plusieurs tokens à chaque itération, sans nécessiter d’entraînement supplémentaire du modèle, notre approche accélère significativement la génération tout en préservant la qualité des échantillons. Sur des benchmarks de raisonnement, KLASS permet jusqu’à un gain de vitesse de 2,78× en temps réel, tout en améliorant les performances par rapport au décodage glouton classique, atteignant ainsi des résultats de pointe parmi les méthodes d’échantillonnage basées sur la diffusion. Nous validons également KLASS dans divers domaines — texte, images, génération moléculaire — démontrant ainsi son efficacité comme méthode d’échantillonnage généralisable applicable à différents types de modèles.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.