Command Palette
Search for a command to run...
Décodage parallèle prenant en compte la localité pour une génération d'images autoregressive efficace
Décodage parallèle prenant en compte la localité pour une génération d'images autoregressive efficace
Zhuoyang Zhang Luke J. Huang Chengyue Wu Shang Yang Kelly Peng Yao Lu Song Han
Résumé
Nous présentons le décodage parallèle avec prise en compte de la localité (Locality-aware Parallel Decoding, LPD) pour accélérer la génération d'images autoregressive. La génération d'images autoregressive traditionnelle repose sur la prédiction du prochain patch, un processus limité par la mémoire qui entraîne une latence élevée. Les travaux existants ont tenté de paralléliser cette prédiction en passant à la prédiction multi-patch pour accélérer le processus, mais n'ont obtenu qu'une parallélisation limitée. Pour atteindre une forte parallélisation tout en maintenant la qualité de génération, nous introduisons deux techniques clés : (1) Modélisation autoregressive parallélisée flexible, une nouvelle architecture qui permet un ordre de génération arbitraire et des degrés de parallélisation variés. Elle utilise des jetons de requête de position apprenables pour guider la génération aux positions cibles tout en assurant une visibilité mutuelle entre les jetons générés simultanément pour une décodage parallèle cohérent. (2) Ordonnancement avec prise en compte de la localité, un nouveau calendrier qui forme des groupes afin de minimiser les dépendances intra-groupe et maximiser le soutien contextuel, améliorant ainsi la qualité de génération. Grâce à ces conceptions, nous réduisons les étapes de génération de 256 à 20 (pour une résolution 256×256) et de 1024 à 48 (pour une résolution 512×512), sans compromettre la qualité sur la génération conditionnelle aux classes d'ImageNet, et en atteignant au moins 3,4 fois moins de latence que les modèles autoregressifs parallèles précédents.