il y a 4 jours

Décodage parallèle prenant en compte la localité pour une génération d'images autoregressive efficace

Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han

Résumé

Nous présentons le décodage parallèle avec prise en compte de la localité (Locality-aware Parallel Decoding, LPD) pour accélérer la génération d'images autoregressive. La génération d'images autoregressive traditionnelle repose sur la prédiction du prochain patch, un processus limité par la mémoire qui entraîne une latence élevée. Les travaux existants ont tenté de paralléliser la prédiction du prochain patch en passant à la prédiction multi-patch pour accélérer le processus, mais n'ont obtenu qu'une parallélisation limitée. Pour atteindre une forte parallélisation tout en maintenant la qualité de génération, nous introduisons deux techniques clés : (1) Modélisation autoregressive parallélisée flexible, une nouvelle architecture qui permet un ordre de génération arbitraire et des degrés de parallélisation variés. Elle utilise des jetons de requête de position apprenables pour guider la génération aux positions cibles tout en assurant une visibilité mutuelle entre les jetons générés simultanément pour une décodification parallèle cohérente. (2) Ordonnancement de génération avec prise en compte de la localité, un nouveau calendrier qui forme des groupes afin de minimiser les dépendances intra-groupe et maximiser le soutien contextuel, améliorant ainsi la qualité de génération. Grâce à ces conceptions, nous réduisons les étapes de génération de 256 à 20 (pour une résolution 256×256) et de 1024 à 48 (pour une résolution 512×512), sans compromettre la qualité dans la génération conditionnelle aux classes sur ImageNet, et en réalisant au moins une latence 3,4 fois plus faible que celle des modèles autoregressifs précédemment parallélisés.