8일 전
업샘플링이 중요한 것: 가속화된 디퓨전 트랜스포머를 위한 영역 적응형 잠재 샘플링
Wongi Jeong; Kyungryeol Lee; Hoigi Seo; Se Young Chun

초록
디퓨전 트랜스포머는 고정밀 이미지 및 동영상 생성을 위한 U-net 기반 디퓨전 모델의 대안으로 등장하였으며, 더 나은 확장성을 제공합니다. 그러나 그들의 높은 계산 부하가 실제 세계에서의 배포에 주요 장애물로 작용하고 있습니다. 기존의 가속화 방법은 주로 시간 차원을 활용하여 디퓨전 단계 간에 캐시된 특징을 재사용하는 방식입니다. 본 논문에서는 공간 차원을 통해 추론을 가속화하는 '영역 적응형 잠재 상승 샘플링(RALU)'이라는 훈련 없이 작동하는 프레임워크를 제안합니다. RALU는 세 단계에 걸쳐 혼합 해상도 샘플링을 수행합니다: 1) 전반적인 의미 구조를 효율적으로 포착하기 위한 저해상도 잠재 디퓨전, 2) 고해상도에서 예술적 현상이 발생하기 쉬운 특정 영역에 대한 영역 적응형 상승 샘플링, 3) 세부 사항 개선을 위한 고해상도 전체 잠재 상승 샘플링. 해상도 전환에 걸쳐 생성을 안정화하기 위해 노이즈-타임스텝 재배정을 활용하여 다양한 해상도에 맞춰 노이즈 수준을 적응시킵니다. 본 방법은 이미지 품질을 유지하면서도 계산을 크게 줄일 수 있으며, FLUX에서는 최대 7.0$\times$의 속도 향상과 Stable Diffusion 3에서는 3.0$\times$의 속도 향상을 얻을 수 있습니다. 또한, RALU는 기존의 시간적 가속 기법(예: 캐싱 방법)과 호환 가능하므로, 생성 품질을 희생하지 않고 추론 지연 시간을 더욱 줄일 수 있도록 원활하게 통합될 수 있습니다.