2달 전

이미지 합성: 재구성 가능한 레이아웃과 스타일로부터

Sun, Wei ; Wu, Tianfu
초록

최근 무조건적 및 조건부 이미지 생성 분야에서 놀라운 발전이 이루어졌음에도 불구하고, 재구성 가능한 공간 배치(즉, 이미지 격자 내의 바운딩 박스 + 클래스 라벨)와 스타일(즉, 잠재 벡터로 인코딩된 구조적 및 외관 변동)을 이용하여 실제적이고 선명한 이미지를 특히 고해상도에서 생성할 수 있는 생성 모델을 학습하는 것은 여전히 오랜 문제입니다. 재구성 가능성이란 주어진 배치로부터 여러 가지 스타일이 다른 가능한 이미지들로의 본질적인 일대다 매핑을 유지하면서, 배치와 스타일 잠재 코드의 변동에 적응할 수 있음을 의미합니다. 본 논문에서는 재구성 가능한 배치와 스타일로부터 이미지를 생성하도록 엔드투엔드로 훈련될 수 있는 생성적 적대 네트워크(layout- 및 style-based architecture for generative adversarial networks, LostGANs) 아키텍처를 제시합니다. 기존 StyleGAN에서 영감을 얻은 LostGAN은 다음과 같은 두 가지 새로운 구성 요소를 포함하고 있습니다: (i) 배치와 이미지 사이의 간극을 메우기 위해 미약한 감독 하에 세밀한 마스크 맵(mask maps)을 학습하고, (ii) 생성기(generator) 내에서 객체 인스턴스별로 배치 인식(layout-aware) 피처 정규화(ISLA-Norm)를 학습하여 다중 객체 스타일 생성(multi-object style generation)을 실현합니다. 실험에서는 제안된 방법이 COCO-Stuff 데이터셋과 Visual Genome 데이터셋에서 최신 연구 성과를 달성함을 확인하였습니다. 코드와 사전 훈련된 모델들은 \url{https://github.com/iVMCL/LostGANs}에서 제공됩니다.

이미지 합성: 재구성 가능한 레이아웃과 스타일로부터 | 최신 연구 논문 | HyperAI초신경