하루 전
다음 시각적 세분화 생성
Yikai Wang, Zhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy

초록
이미지를 구조화된 시퀀스로 분해함으로써 이미지 생성에 새로운 접근법을 제안한다. 이 시퀀스의 각 요소는 동일한 공간 해상도를 가지지만, 사용하는 고유 토큰의 수가 다르며, 이는 다양한 수준의 시각적 세부 정보를 포착할 수 있도록 한다. 이미지 생성은 새로 도입한 '다음 시각적 세부 수준(Next Visual Granularity, NVG)' 생성 프레임워크를 통해 수행되며, 빈 이미지에서 시작하여 전역적인 레이아웃부터 세부 사항까지 구조적으로 단계적으로 정교화하는 방식으로 진행된다. 이러한 반복적 과정은 계층적이고 계층화된 표현을 인코딩하며, 여러 세부 수준에 걸쳐 생성 과정에 대한 정밀한 제어를 가능하게 한다. 우리는 ImageNet 데이터셋에서 클래스 조건부 이미지 생성을 위해 일련의 NVG 모델을 학습하고, 명확한 스케일링 현상을 관찰하였다. VAR 시리즈 대비 NVG는 FID 점수에서 일관되게 뛰어난 성능을 보였다 (3.30 → 3.03, 2.57 → 2.44, 2.09 → 2.06). 또한 NVG 프레임워크의 능력과 잠재력을 입증하기 위해 광범위한 분석을 수행하였다. 본 연구의 코드 및 모델은 공개될 예정이다.