17일 전

Simpler Diffusion (SiD2): 픽셀 공간 확산을 사용한 ImageNet512에서의 FID 1.5

Emiel Hoogeboom, Thomas Mensink, Jonathan Heek, Kay Lamerigts, Ruiqi Gao, Tim Salimans
Simpler Diffusion (SiD2): 픽셀 공간 확산을 사용한 ImageNet512에서의 FID 1.5
초록

잠재 확산 모델은 고해상도 이미지 합성에 있어 확산 모델을 확장하는 데 있어 널리 선호되는 선택지가 되었다. 종합적으로 훈련되는 픽셀 공간 모델과 비교해, 잠재 공간 모델은 더 효율적이고 고해상도에서 더 높은 이미지 품질을 제공한다는 인식이 있다. 그러나 본 연구에서는 이러한 인식에 도전하며, 픽셀 공간 모델이 품질과 효율성 면에서 잠재 공간 모델과 매우 경쟁력이 있음을 보여준다. 이를 통해 ImageNet512에서는 1.5의 FID를 달성하였으며, ImageNet128, ImageNet256, Kinetics600에서 새로운 최고 성능(SOTA)을 기록하였다.본 연구는 종단간(end-to-end) 픽셀 공간 확산 모델을 고해상도로 확장하기 위한 간단한 전략을 제시한다. 첫째, Kingma & Gao(2023)의 시그모이드 손실 가중 방식을 제안된 하이퍼파라미터와 함께 사용한다. 둘째, 더 적은 스케이프 연결(skipt-connections)을 갖는 간소화된 메모리 효율적 아키텍처를 적용한다. 셋째, 더 낮은 해상도에서 더 많은 파라미터를 사용하는 대신, 고해상도에서의 처리에 초점을 맞추어 파라미터 수를 적게 유지하는 방식으로 모델을 확장한다. 이러한 기법들을 가이드라인 간격(guidance intervals)과 결합함으로써, 우리는 'Simpler Diffusion(SiD2)'라 명명하는 픽셀 공간 확산 모델의 일련의 제품군을 도출하였다.

Simpler Diffusion (SiD2): 픽셀 공간 확산을 사용한 ImageNet512에서의 FID 1.5 | 최신 연구 논문 | HyperAI초신경