il y a 9 jours

Calcul adaptatif évolutif pour la génération itérative

Allan Jabri, David Fleet, Ting Chen

Résumé

Les données naturelles sont redondantes, tout en étant dominées par des architectures prédominantes qui répartissent uniformément les calculs sur l’espace d’entrée et de sortie. Nous proposons les Réseaux d’Interface Récurrents (RINs), une architecture fondée sur l’attention qui découple son calcul central de la dimensionnalité des données, permettant ainsi un calcul adaptatif pour une génération plus évolutive de données de grande dimension. Les RINs concentrent la majeure partie du calcul (c’est-à-dire l’attention self-locale globale) sur un ensemble de tokens latents, utilisant l’attention croisée pour lire et écrire (c’est-à-dire router) des informations entre les tokens latents et les tokens de données. Le stacking de blocs RIN permet des rétroactions descendantes (de la donnée vers le latent) et ascendantes (du latent vers la donnée), conduisant à un routage plus profond et plus expressif. Bien que ce routage introduise des défis, ceux-ci sont moins problématiques dans les contextes de calcul récurrent, où la tâche (et le problème de routage) évolue progressivement, comme dans la génération itérative via des modèles de diffusion. Nous montrons comment tirer parti de la récurrence en conditionnant les tokens latents à chaque passage avant du processus de diffusion inverse à l’aide de ceux issus des calculs antérieurs, c’est-à-dire par une auto-conditionnement latent. Les RINs atteignent des performances de pointe dans les modèles de diffusion de pixels pour la génération d’images et de vidéos, en échelle jusqu’à des images de 1024×1024 sans recours à des cascades ni à une guidance, tout en étant agnostiques au domaine et jusqu’à 10 fois plus efficaces que les U-Nets 2D et 3D.