HyperAI
il y a 15 jours

VMoBA : Mélange d'Attention par Blocs pour les Modèles de Diffusion Vidéo

Jianzong Wu, Liang Hou, Haotian Yang, Xin Tao, Ye Tian, Pengfei Wan, Di Zhang, Yunhai Tong
VMoBA : Mélange d'Attention par Blocs pour les Modèles de Diffusion Vidéo
Résumé

La complexité quadratique des mécanismes d'attention complète pose une importante bouteille d'amont pour les modèles de diffusion vidéo (VDMs) visant à générer des vidéos de longue durée et haute résolution. Bien que diverses méthodes d'attention éparse aient été proposées, beaucoup sont conçues comme des accélérateurs d'inférence sans entraînement ou ne capturent pas optimalement les caractéristiques spatio-temporelles uniques inhérentes aux données vidéo lorsqu'elles sont entraînées nativement. Cet article introduit Video Mixture of Block Attention (VMoBA), un nouveau mécanisme d'attention éparse spécifiquement adapté aux VDMs. Inspiré par une analyse approfondie des motifs d'attention au sein de transformateurs vidéo pré-entraînés, qui a révélé une forte localité spatio-temporelle, une importance variable des requêtes et des niveaux de concentration spécifiques à chaque tête, VMoBA améliore le cadre original MoBA par trois modifications clés : (1) un schéma de partition de bloc récurrent par couche (1D-2D-3D) pour s'adapter dynamiquement à divers motifs d'attention spatio-temporelle et améliorer l'efficacité ; (2) une sélection globale de blocs pour prioriser les interactions requête-clé les plus saillantes sur l'ensemble d'une tête d'attention ; et (3) une sélection de blocs basée sur un seuil pour déterminer dynamiquement le nombre de blocs suivis en fonction de leur similarité cumulée. De nombreuses expériences montrent que VMoBA accélère considérablement l'entraînement des VDMs sur des séquences plus longues, atteignant une accélération de 2,92 fois en termes de FLOPs et de 1,48 fois en termes de latence, tout en offrant une qualité générative comparable voire supérieure à celle de l'attention complète. De plus, VMoBA présente des performances compétitives dans l'inférence sans entraînement, offrant une accélération de 2,40 fois en termes de FLOPs et de 1,35 fois en termes de latence pour la génération de vidéos haute résolution.