
초록
생성적 적대 신경망(GAN)의 주요 남은 과제 중 하나는 객체의 형태와 질감이 실제 이미지와 구분되지 않을 정도로 전역적이고 국소적으로 일관된 이미지를 생성하는 능력이다. 이 문제를 해결하기 위해 우리는 분할 분야의 통찰을 차용한 대안적인 U-Net 기반 디스커리미네이터 아키텍처를 제안한다. 제안하는 U-Net 기반 아키텍처는 생성기에게 세부적인 픽셀 단위 피드백을 제공하면서도, 전역적인 이미지 일관성을 유지할 수 있도록 전역 이미지 피드백을 동시에 제공함으로써 이를 실현한다. 디스커리미네이터의 픽셀 단위 반응을 활용해, CutMix 데이터 증강 기법을 기반으로 한 픽셀 단위 일관성 정규화 기법을 추가로 제안함으로써, U-Net 디스커리미네이터가 실제 이미지와 가짜 이미지 간의 의미적 및 구조적 변화에 더 집중하도록 유도한다. 이는 U-Net 디스커리미네이터의 학습을 향상시켜 생성 샘플의 품질을 더욱 높인다. 제안하는 새로운 디스커리미네이터는 기존의 최상위 기술 대비 표준 분포 및 이미지 품질 지표에서 우수한 성능을 보이며, 다양한 구조, 외형 및 세부 수준을 갖춘 이미지를 생성할 수 있도록 하여 전역적 및 국소적 현실감을 유지한다. BigGAN 기준 대비, FFHQ, CelebA 및 최신으로 도입된 COCO-Animals 데이터셋에서 평균적으로 2.7점의 FID 개선을 달성하였다. 코드는 https://github.com/boschresearch/unetgan 에서 공개되어 있다.