팔레트: 이미지-이미지 확산 모델

본 논문은 조건부 확산 모델을 기반으로 한 이미지-이미지 변환의 통합 프레임워크를 개발하고, 이 프레임워크를 색상화(colorization), 인페인팅(inpainting), 언크로핑(uncropping), 그리고 JPEG 복원 등 네 가지 어려운 이미지-이미지 변환 과제에서 평가합니다. 우리의 간단한 이미지-이미지 확산 모델 구현은 모든 과제에서 강력한 GAN 및 회귀 베이스라인을 능가하며, 과제별 하이퍼파라미터 조정, 아키텍처 맞춤설정, 또는 보조 손실 함수나 고도화된 새로운 기술 없이도 이를 성취합니다. 우리는 노이즈 제거 확산 목적함수에서 L2 대 L1 손실의 영향을 밝히고, 경험적 연구를 통해 신경망 아키텍처에서 자기 주의(self-attention)의 중요성을 입증합니다. 특히, ImageNet을 기반으로 한 인간 평가와 샘플 품질 점수(FID, Inception Score,事前训练的 ResNet-50 的分类准确性,以及与原始图像的感知距离)를 포함하는 통합 평가 프로토콜을 제안하며, 이 표준화된 평가 프로토콜이 이미지-이미지 변환 연구의 발전에 기여할 것으로 기대됩니다. 마지막으로, 일반적인 다중 과제 확산 모델이 과제별 전문 모델만큼 잘 수행하거나 더 우수하게 수행됨을 보여줍니다. 결과 개요는 https://diffusion-palette.github.io 에서 확인할 수 있습니다.注:在翻译 "Classification Accuracy of a pre-trained ResNet-50" 时,我使用了 "사전 훈련된 ResNet-50의 분류 정확성" 这样的表述,以确保其符合韩语的表达习惯。