17일 전

고정밀 이미지 생성을 위한 계단식 확산 모델

Jonathan Ho, Chitwan Saharia, William Chan, David J. Fleet, Mohammad Norouzi, Tim Salimans
고정밀 이미지 생성을 위한 계단식 확산 모델
초록

계단식 확산 모델이 보조 이미지 분류기 없이도 클래스 조건부 ImageNet 생성 벤치마크에서 고해상도 이미지를 생성할 수 있음을 보여줍니다. 계단식 확산 모델은 최저 해상도에서 표준 확산 모델을 시작으로, 이후 하나 이상의 초해상도 확산 모델이 차례로 이미지를 업샘플링하고 더 높은 해상도의 세부 정보를 추가하는 파이프라인 구조를 갖습니다. 우리는 계단식 파이프라인의 샘플 품질이 조건부 증강(conditioning augmentation)에 크게 의존함을 발견했습니다. 조건부 증강은 초해상도 모델의 저해상도 조건 입력에 대해 데이터 증강을 수행하는 본 연구에서 제안한 방법입니다. 실험 결과, 조건부 증강이 계단식 모델 내 샘플링 과정에서 오차가 누적되는 것을 방지함으로써, 64×64 해상도에서 FID 점수가 1.48, 128×128에서 3.52, 256×256에서 4.88에 달하는 계단식 파이프라인을 훈련하는 데 기여하였으며, 이는 BigGAN-deep를 초월하는 성능을 보였습니다. 또한 256×256 해상도에서 정확도는 상위 1위(top-1) 63.02%, 상위 5위(top-5) 84.06%를 기록하여 VQ-VAE-2를 능가하는 결과를 얻었습니다.