VMoBA: Mischung von Block-Aufmerksamkeit für Video-Diffusionsmodelle

Die quadratische Komplexität vollständiger Aufmerksamkeitsmechanismen stellt eine erhebliche Engstelle für Video-Diffusionsmodelle (VDMs) dar, die darauf abzielen, lange, hochaufgelöste Videos zu generieren. Obwohl verschiedene spärliche Aufmerksamkeitsmethoden vorgeschlagen wurden, sind viele davon als trainingsfreie Inferenzbeschleuniger konzipiert oder fangen bei nativer Ausbildung nicht optimal die einzigartigen räumlich-zeitlichen Merkmale in Videodaten ab. In dieser Arbeit wird Video Mixture of Block Attention (VMoBA) vorgestellt, ein neuartiger spärlicher Aufmerksamkeitsmechanismus, der speziell für VDMs angepasst ist. Angeregt durch eine detaillierte Analyse der Aufmerksamkeitsmuster innerhalb vortrainierter Video-Transformer, die starke räumlich-zeitliche Lokalität, variierende Abfragebedeutung und kopfspezifische Konzentrationsniveaus aufgezeigt hat, verbessert VMoBA den ursprünglichen MoBA-Rahmen durch drei wesentliche Modifikationen: (1) ein schichtweiser rekurrenter Blockpartitionsschema (1D-2D-3D), um sich dynamisch an verschiedene räumlich-zeitliche Aufmerksamkeitsmuster anzupassen und die Effizienz zu steigern; (2) globale Blockauswahl, um die wichtigsten Abfrage-Schlüssel-Blockinteraktionen über den gesamten Aufmerksamkeitskopf hinweg zu priorisieren; und (3) schwellenwertbasierte Blockauswahl, um die Anzahl der beachteten Blöcke dynamisch basierend auf ihrer kumulativen Ähnlichkeit zu bestimmen. Umfangreiche Experimente zeigen, dass VMoBA das Training von VDMs auf längeren Sequenzen erheblich beschleunigt und dabei eine 2,92-fache Reduktion der FLOPs sowie eine 1,48-fache Latenzverbesserung erreicht, wobei es vergleichbare oder sogar überlegene Generierungskualitäten gegenüber vollständiger Aufmerksamkeit aufweist. Darüber hinaus zeigt VMoBA leistungsfähige Ergebnisse bei trainingsfreier Inferenz und bietet eine 2,40-fache Reduktion der FLOPs sowie eine 1,35-fache Latenzverbesserung für die Generierung hochaufgelöster Videos.