HyperAI초신경
4일 전

∇NABLA: Neighborhood Adaptive Block-Level Attention

Dmitrii Mikhailov; Aleksey Letunovskiy; Maria Kovaleva; Vladimir Arkhipkin; Vladimir Korviakov; Vladimir Polovnikov; Viacheslav Vasilev; Evelina Sidorova; Denis Dimitrov
∇NABLA: Neighborhood Adaptive Block-Level Attention
초록

트랜스포머 기반 아키텍처의 최근 발전은 영상 생성 작업에서 놀라운 성공을 보여주었다. 그러나 전체 어텐션 메커니즘의 2차 복잡도는 특히 고해상도 및 긴 지속 시간의 영상 시퀀스에서 핵심적인 한계로 남아 있다. 본 논문에서는 영상 확산 트랜스포머(Video Diffusion Transformers, DiTs)에서의 희소성 패턴에 동적으로 적응하는 새로운 이웃 적응 블록 수준 어텐션(Neighborhood Adaptive Block-Level Attention, NABLA) 메커니즘을 제안한다. 블록 단위의 어텐션과 적응형 희소성 기반 임계치를 활용함으로써 NABLA는 계산 부담을 줄이면서도 생성 품질을 유지한다. 본 방법은 고수준의 특수 연산자 설계를 필요로 하지 않으며, PyTorch의 Flex Attention 연산자와 원활하게 통합할 수 있다. 실험 결과에 따르면 NABLA는 정량적 지표(CLIP 점수, VBench 점수, 인간 평가 점수)와 시각적 품질의 저하 없이 기준 모델 대비 최대 2.7배 빠른 학습 및 추론 속도를 달성한다. 코드 및 모델 가중치는 여기서 제공된다: https://github.com/gen-ai-team/Wan2.1-NABLA