17일 전

사전 훈련된 이미지 백본을 활용한 의미론적 이미지 합성

Tariq Berrada, Jakob Verbeek, Camille Couprie, Karteek Alahari
사전 훈련된 이미지 백본을 활용한 의미론적 이미지 합성
초록

의미론적 이미지 합성(semantic image synthesis)은 사용자가 제공한 의미론적 레이블 맵에서 이미지를 생성하는 중요한 조건부 이미지 생성 과제로, 생성된 이미지의 콘텐츠뿐 아니라 공간적 레이아웃을 모두 제어할 수 있다는 점에서 중요한 의미를 가진다. 비록 확산 모델(diffusion models)이 생성적 이미지 모델링 분야에서 최신 기준을 제시하고 있으나, 그 추론 과정이 반복적인 성격을 지닌다는 점에서 계산적으로 매우 부담스럽다. 반면, GANs와 같은 다른 접근 방식은 이미지 생성을 위한 단일 순방향 전파만으로도 가능해 효율성이 뛰어나지만, 대규모이고 다양한 데이터셋에서는 이미지 품질이 저하되는 경향이 있다. 본 연구에서는 이미지 분류와 같은 과제에 미리 학습된 특징 백본 네트워크(feature backbone networks)를 활용하여 매우 현실적인 이미지를 생성할 수 있는 새로운 유형의 GAN 판별자(discriminator)를 제안한다. 또한, 더 나은 맥락 모델링을 가능하게 하고, 교차 주의(cross-attention)를 통해 노이즈를 잠재 변수에 주입함으로써 더 다양한 이미지를 생성할 수 있는 새로운 생성자(generator) 아키텍처를 도입한다. 본 연구에서 제안하는 모델인 DP-SIMS는 ADE-20K, COCO-Stuff, Cityscapes 데이터셋에서 입력 레이블 맵과의 일관성 및 이미지 품질 측면에서 최신 기준을 달성하며, 최근의 확산 모델을 뛰어넘는 성능을 보이며 동시에 추론 과정에 필요한 계산량을 두 자릿수 이상 줄이는 데 성공했다.

사전 훈련된 이미지 백본을 활용한 의미론적 이미지 합성 | 최신 연구 논문 | HyperAI초신경