17일 전

세밀한 이미지 합성에 있어 귀하가 필요로 하는 것은 오직 적대적 감독뿐이다

Vadim Sushko, Edgar Schönfeld, Dan Zhang, Juergen Gall, Bernt Schiele, Anna Khoreva
세밀한 이미지 합성에 있어 귀하가 필요로 하는 것은 오직 적대적 감독뿐이다
초록

최근의 성공에도 불구하고, 단지 적대적 학습( adversarial supervision)만을 사용하여 훈련되는 GAN 모델은 의미론적 이미지 합성에서 여전히 낮은 이미지 품질 문제를 겪고 있다. 역사적으로 VGG 기반의 인지적 손실(perceptual loss)을 추가로 활용함으로써 이 문제를 부분적으로 해결할 수 있었으며, 합성 품질이 크게 향상되었지만, 동시에 의미론적 이미지 합성 분야의 GAN 모델 발전을 제한하는 요인이 되었다. 본 연구에서는 단지 적대적 학습만을 사용하여도 고성능 결과를 달성할 수 있는 새로운 간소화된 GAN 모델을 제안한다. 우리는 판별자(discriminator)를 의미론적 세그멘테이션 네트워크로 재설계하여, 주어진 의미론적 레이블 맵을 직접 훈련의 지표(ground truth)로 사용한다. 공간적·의미적 인식 능력을 갖춘 판별자의 피드백을 통해 판별자뿐 아니라 생성자(generator)에도 더 강한 지도 신호를 제공함으로써, 입력 레이블 맵과 더 잘 일치하고 보다 높은 사실성(fidelity)을 갖는 이미지를 합성할 수 있게 되었으며, 이로 인해 인지적 손실의 사용이 불필요하게 되었다. 또한, 생성자에 주입되는 3차원 노이즈 텐서의 전역적 및 국소적 샘플링을 통해 고해상도의 다중 모달 이미지 합성을 가능하게 하였으며, 이미지의 완전한 또는 부분적인 변화를 구현할 수 있다. 제안하는 모델이 생성하는 이미지가 더 다양하며, 실제 이미지의 색상 및 질감 분포를 더 잘 따르는 것으로 확인되었다. 다양한 데이터셋에서 기존 최고 성능 모델 대비 평균적으로 FID 점수에서 6점, mIoU에서 5점의 개선을 달성하였으며, 이는 단지 적대적 학습만을 사용함에도 불구하고 가능하다.

세밀한 이미지 합성에 있어 귀하가 필요로 하는 것은 오직 적대적 감독뿐이다 | 최신 연구 논문 | HyperAI초신경