4일 전
지역성 인식 병렬 디코딩을 이용한 효율적인 자기회귀 이미지 생성
Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han

초록
우리는 자동 회귀 이미지 생성을 가속화하기 위해 위치 인식 병렬 디코딩(LPD, Locality-aware Parallel Decoding)을 제시합니다. 전통적인 자동 회귀 이미지 생성은 다음 패치 예측에 의존하는데, 이는 메모리 제약 과정으로 높은 지연 시간을 초래합니다. 기존 연구들은 다중 패치 예측으로 전환하여 이 과정을 병렬화하려고 시도했지만, 제한된 병렬화만 달성하였습니다. 고도의 병렬화를 실현하면서 생성 품질을 유지하기 위해 우리는 두 가지 핵심 기술을 소개합니다: (1) 유연한 병렬화 자동 회귀 모델링(Flexible Parallelized Autoregressive Modeling), 새로운 아키텍처로 임의의 생성 순서와 병렬화 정도를 가능하게 합니다. 이 모델은 학습 가능한 위치 쿼리 토큰을 사용하여 목표 위치에서 생성을 안내하면서 동시에 생성되는 토큰 간의 상호 가시성을 보장하여 일관된 병렬 디코딩을 실현합니다. (2) 위치 인식 생성 순서(Locality-aware Generation Ordering), 새로운 스케줄로 그룹을 형성하여 그룹 내 의존성을 최소화하고 문맥 지원을 최대화하여 생성 품질을 개선합니다. 이러한 설계를 통해 ImageNet 클래스 조건부 생성에서 품질 저하 없이 256x256 해상도에서는 생성 단계를 256단계에서 20단계로, 512x512 해상도에서는 1024단계에서 48단계로 줄였으며, 이전의 병렬화된 자동 회귀 모델보다 최소 3.4배 낮은 지연 시간을 달성하였습니다.