∇NABLA: Neighborhood Adaptive Block-Level Attention

Die neuesten Fortschritte in Architekturen basierend auf Transformers haben eine bemerkenswerte Erfolgsbilanz bei Aufgaben der Videogenerierung gezeigt. Dennoch bleibt die quadratische Komplexität der vollständigen Aufmerksamkeitsmechanismen ein kritischer Engpass, insbesondere bei hochauflösenden und langen Videosequenzen. In dieser Arbeit präsentieren wir NABLA, einen neuen Neighborhood Adaptive Block-Level Attention-Mechanismus, der sich dynamisch an die Spärlichkeitsmuster in Video Diffusion Transformers (DiTs) anpasst. Durch die Nutzung von blockweiser Aufmerksamkeit mit einem adaptive sparsity-gesteuerten Schwellwert reduziert NABLA die Rechenkosten, während die Generativerqualität erhalten bleibt. Unsere Methode erfordert keine spezifische Implementierung von Low-Level-Operatoren und kann nahtlos mit dem Flex Attention-Operator von PyTorch integriert werden. Experimente zeigen, dass NABLA die Trainings- und Inferenzgeschwindigkeit um bis zu 2,7-fach gegenüber der Baseline erhöht, ohne signifikante Einbußen bei den quantitativen Metriken (CLIP-Score, VBench-Score, menschliche Bewertung) oder der visuellen Qualität zu verursachen. Der Code und die Modellgewichte sind hier verfügbar: https://github.com/gen-ai-team/Wan2.1-NABLA