HyperAI초신경
17일 전

PAROAttention: 시각적 생성 모델에서 효율적인 희소 및 양자화된 주의를 위한 패턴 인식 재정렬

Zhao, Tianchen ; Hong, Ke ; Yang, Xinhao ; Xiao, Xuefeng ; Li, Huixia ; Ling, Feng ; Xie, Ruiqi ; Chen, Siqi ; Zhu, Hongyu ; Zhang, Yichong ; Wang, Yu
PAROAttention: 시각적 생성 모델에서 효율적인 희소 및 양자화된 주의를 위한 패턴 인식 재정렬
초록

시각적 생성에서 주의 메커니즘의 이차 복잡도는 고해상도 이미지 또는 다중 프레임 비디오 생성에 필요한 긴 토큰 시퀀스에 대해 높은 메모리와 계산 비용을 초래합니다. 이를 해결하기 위해, 이전 연구에서는 희소화와 양자화 기술을 탐구했습니다. 그러나 이러한 기술들은 낮은 밀도와 감소된 비트폭에서 큰 어려움을 겪습니다. 체계적인 분석을 통해 우리는 주요 어려움이 시각적 주의 패턴의 분산되고 불규칙한 특성에서 비롯됨을 확인했습니다. 따라서 이러한 패턴에 맞춰 전문적인 희소화 및 양자화 설계를 도입하는 대신, 우리는 주의 패턴을 재구성하여 문제를 완화하는 대체 전략을 제안합니다. 시각적 특징 추출의 지역 집합 특성을 참고로, 우리는 다양한 주의 패턴을 하드웨어 친화적인 블록 단위 패턴으로 통합하는 새로운 패턴 인식 토큰 재정렬 (PARO) 기술을 설계했습니다. 이 통합은 희소화와 양자화를 크게 단순화하고 개선합니다. 우리는 다양한 설계 선택사항들의 성능-효율성 균형을 평가하고, 통합된 패턴에 맞춘 방법론을 확립했습니다. 우리의 접근 방식인 PAROAttention은 손실 없는 측정치로 비디오와 이미지를 생성하며, 전체 정밀도 (FP) 베이스라인과 거의 동일한 결과를 제공하면서도 저밀도 (~20%-30%)와 저비트폭 (INT8/INT4)에서 작동하여 최대 1.9배에서 2.7배까지 전체 처리 시간 가속 효과를 달성하였습니다.