HyperAIHyperAI

Command Palette

Search for a command to run...

∇NABLA: Neighborhood Adaptive Block-Level Attention

Dmitrii Mikhailov Aleksey Letunovskiy Maria Kovaleva Vladimir Arkhipkin Vladimir Korviakov Vladimir Polovnikov Viacheslav Vasilev Evelina Sidorova Denis Dimitrov

Zusammenfassung

Die neuesten Fortschritte in Architekturen basierend auf Transformers haben eine bemerkenswerte Erfolgsbilanz bei Aufgaben der Videogenerierung gezeigt. Dennoch bleibt die quadratische Komplexität der vollständigen Aufmerksamkeitsmechanismen ein kritischer Engpass, insbesondere bei hochauflösenden und langen Videosequenzen. In dieser Arbeit präsentieren wir NABLA, einen neuen Neighborhood Adaptive Block-Level Attention-Mechanismus, der sich dynamisch an die Spärlichkeitsmuster in Video Diffusion Transformers (DiTs) anpasst. Durch die Nutzung von blockweiser Aufmerksamkeit mit einem adaptive sparsity-gesteuerten Schwellwert reduziert NABLA die Rechenkosten, während die Generativerqualität erhalten bleibt. Unsere Methode erfordert keine spezifische Implementierung von Low-Level-Operatoren und kann nahtlos mit dem Flex Attention-Operator von PyTorch integriert werden. Experimente zeigen, dass NABLA die Trainings- und Inferenzgeschwindigkeit um bis zu 2,7-fach gegenüber der Baseline erhöht, ohne signifikante Einbußen bei den quantitativen Metriken (CLIP-Score, VBench-Score, menschliche Bewertung) oder der visuellen Qualität zu verursachen. Der Code und die Modellgewichte sind hier verfügbar: https://github.com/gen-ai-team/Wan2.1-NABLA


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp