2달 전

이미지 자기회귀 모델링을 위한 잠재 공간 안정화: 통합적 관점

Yongxin Zhu, Bocheng Li, Hang Zhang, Xin Li, Linli Xu, Lidong Bing
이미지 자기회귀 모델링을 위한 잠재 공간 안정화: 통합적 관점
초록

잠재 공간 기반 이미지 생성 모델, 예를 들어 잠재 확산 모델(Latent Diffusion Models, LDMs)과 마스크 이미지 모델(Mask Image Models, MIMs)은 이미지 생성 작업에서 뚜렷한 성공을 거두었습니다. 이러한 모델들은 일반적으로 VQGAN이나 VAE와 같은 재구성 오토인코더를 활용하여 픽셀을 더 컴팩트한 잠재 공간으로 인코딩하고, 픽셀 대신 잠재 공간에서 데이터 분포를 학습합니다. 그러나 이 방법은 중요한 질문을 제기합니다: 이것이 정말 최적의 선택일까요? 이에 대한 답변으로, 우리는 흥미로운 관찰을 시작합니다: 동일한 잠재 공간을 공유함에도 불구하고, 자기 회귀 모델은 이미지 생성에서 LDMs와 MIMs에 크게 뒤처집니다. 이 결과는 NLP 분야에서 GPT와 같은 자기 회귀 모델이 강력한 입지를 다지고 있는 것과 대조됩니다. 이러한 차이점을 해결하기 위해, 우리는 잠재 공간과 생성 모델 간의 관계에 대한 통합된 시각을 제시하며, 특히 이미지 생성 모델링에서의 잠재 공간의 안정성을 강조합니다. 또한, 이미지 생성 모델링을 위한 잠재 공간을 안정화시키는 간단하면서도 효과적인 이산 이미지 토크나이저를 제안합니다. 실험 결과는 우리의 토크나이저(DiGIT)를 사용한 이미지 자기 회귀 모델링이 다음 토큰 예측 원칙에 따라 이미지 이해와 생성 모두에 긍정적인 영향을 미침을 보여줍니다. 이 원칙은 GPT 모델에서는 본질적으로 간단하지만 다른 생성 모델에는 어려운 문제입니다. 놀랍게도, 처음으로 GPT 스타일의 자기 회귀 모델이 이미지에서 LDMs를 능가하였으며, 모델 크기를 확대할 때 GPT와 유사한 큰 개선을 보였습니다. 우리의 연구 결과는 최적화된 잠재 공간과 이산 토크나이징의 통합이 이미지 생성 모델의 역량 강화에 큰 가능성을 지니고 있음을 강조합니다. 코드는 https://github.com/DAMO-NLP-SG/DiGIT 에서 확인할 수 있습니다.

이미지 자기회귀 모델링을 위한 잠재 공간 안정화: 통합적 관점 | 최신 연구 논문 | HyperAI초신경