
최근 딥 제너레이티브 모델 학습에서의 뛰어난 발전에 따라, 재구성 가능한 입력으로부터 제어 가능한 이미지 생성을 위한 모델 개발이 점점 더 흥미롭게 되고 있습니다. 본 논문은 최근 등장한 레이아웃-투-이미지(layout-to-image) 작업에 초점을 맞추어, 공간적 레이아웃(즉, 이미지 격자 내에서 구성된 객체 경계 상자)과 스타일(즉, 잠재 벡터로 인코딩된 구조적 및 외관 변동)로부터 사진처럼 실제적인 이미지를 생성할 수 있는 제너레이티브 모델을 학습하는 방법을 다룹니다. 본 논문은 먼저 이 작업을 위한 직관적인 패러다임인 레이아웃-투-마스크-투-이미지(layout-to-mask-to-image)를 제안합니다. 이는 주어진 경계 상자의 객체 마스크를 입력 레이아웃에서 전개하여 입력 레이아웃과 생성된 이미지 사이의 간극을 메우는 것을 학습하는 것입니다. 그 다음, 본 논문은 제안된 레이아웃-투-마스크-투-이미지 방식에서 이미지와 마스크 수준 모두에서 스타일 제어를 수행하기 위해 Generative Adversarial Networks(GANs) 기반의 방법을 소개합니다.객체 마스크는 입력 레이아웃으로부터 학습되며, 생성기 네트워크의 단계별로 반복적으로 정교화됩니다. 이미지 수준에서의 스타일 제어는 일반 GANs와 동일하지만, 객체 마스크 수준에서의 스타일 제어는 본 논문에서 제안된 새로운 특징 정규화 방식인 인스턴스 감응형 및 레이아웃 인식 정규화(Instance-Sensitive and Layout-Aware Normalization)를 통해 실현됩니다. 실험에서는 COCO-Stuff 데이터셋과 Visual Genome 데이터셋에서 최신 기술 수준의 성능을 달성한 것으로 확인되었습니다.