VMoBA: 비디오 확산 모델을 위한 블록 주의력 혼합

전체 주의 메커니즘의 이차 복잡도는 장시간, 고해상도 비디오를 생성하는 것을 목표로 하는 비디오 확산 모델(VDMs)에 중대한 병목 현상을 초래합니다. 다양한 희소 주의 방법이 제안되었지만, 많은 방법들이 훈련 없이 추론을 가속화하는 데 설계되었거나, 원천적으로 훈련될 때 비디오 데이터에 고유하게 내재된 시공간 특성을 최적화하여 포착하지 못합니다. 본 논문에서는 VDMs에 특별히 적응된 새로운 희소 주의 메커니즘인 비디오 블록 주의 혼합(Video Mixture of Block Attention, VMoBA)을 소개합니다.事前訓練된 비디오 트랜스포머 내에서 주의 패턴에 대한 심층 분석에서 시공간 국소성이 강하고, 쿼리 중요도가 다르며, 헤드별 집중 수준이 다양하다는 점이 밝혀진 것을 바탕으로, VMoBA는 원래 MoBA 프레임워크를 세 가지 핵심 수정 사항으로 개선하였습니다: (1) 1D-2D-3D 계층별 순환 블록 분할 방식을 통해 다양한 시공간 주의 패턴에 동적으로 적응하고 효율성을 개선하는 것; (2) 전체적인 주의 헤드를 통해 가장 중요한 쿼리-키 블록 상호작용을 우선시하는 전역 블록 선택; (3) 누적 유사성에 따라 참조할 블록 수를 동적으로 결정하는 임계값 기반 블록 선택입니다. 광범위한 실험 결과, VMoBA가 더 긴 시퀀스에서 VDMs의 훈련을 크게 가속화하며 2.92배 연산량(FLOPs)과 1.48배 지연 시간(latency) 감소 효과를 보였으며, 전체 주의와 비교해도 유사하거나 그보다 우수한 생성 품질을 달성했습니다. 또한 VMoBA는 무훈련 추론에서도 경쟁력 있는 성능을 보여주어 고해상도 비디오 생성에서 2.40배 연산량(FLOPs)과 1.35배 지연 시간(latency) 감소 효과를 제공합니다.