∇NABLA : Attention Adaptative par Bloc aux Voisinages

Les progrès récents dans les architectures basées sur les transformeurs ont montré un succès remarquable dans les tâches de génération vidéo. Cependant, la complexité quadratique des mécanismes d'attention pleine reste un goulot d'étranglement critique, notamment pour les séquences vidéo à haute résolution et de longue durée. Dans cet article, nous proposons NABLA, un mécanisme d'attention à niveau de blocs adaptatif au voisinage, qui s'adapte dynamiquement aux motifs de sparsité dans les transformeurs de diffusion vidéo (DiTs). En exploitant l'attention par blocs avec un seuil piloté par la sparsité, NABLA réduit la charge de calcul tout en préservant la qualité de génération. Notre méthode ne nécessite pas de conception d'opérateurs de bas niveau personnalisés et peut être intégrée de manière transparente avec l'opérateur d'attention Flex de PyTorch. Les expériences montrent que NABLA permet d'accélérer l'entraînement et l'inférence jusqu'à 2,7 fois par rapport à la base, presque sans compromettre les métriques quantitatives (score CLIP, score VBench, score d'évaluation humaine) et sans perte de qualité visuelle. Le code et les poids du modèle sont disponibles ici : https://github.com/gen-ai-team/Wan2.1-NABLA