Command Palette
Search for a command to run...

초록
디퓨전 트랜스포머(Diffusion Transformer, DiT) 모델, 특히 영상 생성에 있어서, 긴 시퀀스 길이와 이차 복잡도로 인해 어텐션 지연이 주요 성능 저하 요인이 된다. 본 연구에서는 어텐션 가중치가 두 부분으로 나뉘는 것을 발견하였다. 하나는 높은 랭크를 가지는 소수의 큰 가중치이고, 다른 하나는 매우 낮은 랭크를 가지는 나머지 가중치들이다. 이는 자연스럽게 첫 번째 부분에는 희소 가속을, 두 번째 부분에는 낮은 랭크 가속을 적용할 것을 시사한다. 이러한 발견을 바탕으로, 희소 어텐션과 선형 어텐션을 융합하여 디퓨전 모델의 가속을 가능하게 하는 학습 가능한 어텐션 방법인 SLA(Sparse-Linear Attention)를 제안한다. SLA는 어텐션 가중치를 '핵심적', '경계적', '무시할 수 있는' 세 가지 범주로 분류하며, 핵심 가중치에는 O(N²) 어텐션을 적용하고, 경계적 가중치에는 O(N) 어텐션을 적용하며, 무시할 수 있는 가중치는 건너뛴다. SLA는 이러한 계산을 하나의 GPU 커널 내에서 통합하여 전방 및 역방향 전파를 모두 지원한다. SLA를 사용해 몇 차례 미세조정만 수행해도, DiT 모델의 어텐션 계산량이 20배 감소하며, 생성 품질의 저하 없이 상당한 가속을 달성할 수 있다. 실험 결과, SLA는 어텐션 계산량을 95% 감소시키면서 종단간 생성 품질에 영향을 주지 않으며, 기준 방법들을 초월하는 성능을 보였다. 또한, SLA를 위한 효율적인 GPU 커널을 구현하였으며, Wan2.1-1.3B에서 어텐션 계산 속도가 13.7배 향상되고, 영상 생성의 종단간 속도는 2.2배 가속되는 효과를 얻었다.