HyperAI

AdaCache Accélère La Génération De Vidéos

AdaCache est une technologie proposée par Meta en 2024 pour accélérer la génération de vidéos IA. Son cœur est le mécanisme de cache adaptatif. Les résultats de l'article connexe sont «Mise en cache adaptative pour une génération vidéo plus rapide avec des transformateurs de diffusionIl optimise l'allocation des ressources de calcul, ajuste dynamiquement la charge de calcul en fonction de la complexité des différents contenus vidéo et réduit les frais de calcul inutiles. AdaCache introduit une stratégie de régularisation du mouvement pour optimiser davantage les décisions de mise en cache en utilisant les informations de mouvement de la vidéo. Les expériences montrent qu'AdaCache améliore significativement la vitesse de génération tout en préservant la qualité vidéo, et son efficacité est remarquable dans un environnement multi-GPU. Il présente une valeur applicative importante et des perspectives de développement dans le domaine de la génération vidéo.

Plus précisément, notre approche, AdaCache, ne nécessite aucune formation et peut être intégrée de manière transparente dans un transformateur de diffusion vidéo de base en tant que composant plug-and-play pendant la phase d'inférence. L'idée principale de notre schéma est de mettre en cache les calculs résiduels (par exemple, l'attention ou les sorties de perceptron multicouches) dans les modules de transformation à une étape de diffusion spécifique, et de réutiliser ces résultats mis en cache dans plusieurs étapes ultérieures en fonction de la vidéo générée. L'équipe de recherche y est parvenue en développant un plan de mise en cache, c'est-à-dire qu'à chaque fois qu'un calcul résiduel est effectué, une décision est prise quant au moment où il doit être recalculé. Cette décision est guidée par une mesure de distance qui mesure le taux de changement entre la représentation précédemment stockée et la représentation actuelle. Si la distance est grande, le cache n'est pas conservé longtemps (c'est-à-dire plusieurs étapes) pour éviter de réutiliser des représentations incompatibles.

Les chercheurs ont également introduit la régularisation du mouvement (MoReg) pour distribuer les tâches de calcul en fonction du contenu du mouvement dans la vidéo générée. Ceci est motivé par l’observation selon laquelle les séquences hautement dynamiques nécessitent davantage d’étapes de diffusion pour atteindre une qualité raisonnable.

Dans l’ensemble, ce pipeline est appliqué sur plusieurs benchmarks de transformateurs de diffusion vidéo et montre une vitesse d’inférence plus rapide sans sacrifier la qualité de génération.