
최근 생성 모델에 있어 상당한 진전이 이루어졌음에도 불구하고, 여러 개의 복잡한 객체 배치를 묘사하는 이미지를 제어하여 생성하는 것은 여전히 어려운 문제입니다. 주요 도전 과제 중 하나는 특정 객체가 가질 수 있는 다양한 외관과, 그 결과로 특정 배치와 일치하는 지수적으로 증가하는 이미지 집합입니다. 이러한 도전 과제를 해결하기 위해, 우리는 레이아웃 기반 이미지 생성을 위한 새로운 접근 방식을 제안합니다; 이를 Layout2Im이라고 명명하였습니다. 주어진 대략적인 공간적 배치(경계 상자 + 객체 카테고리)를 바탕으로, 우리의 모델은 원하는 위치에 올바른 객체를 포함하는 현실적인 이미지 집합을 생성할 수 있습니다. 각 객체의 표현은 지정된/확실한 부분(카테고리)과 비지정된/불확실한 부분(외관)으로 분리됩니다. 카테고리는 단어 임베딩(word embedding)을 사용하여 인코딩되고, 외관은 정규 분포에서 샘플링된 저차원 벡터로 추출됩니다. 개별 객체 표현들은 컨볼루셔널 LSTM(convolutional LSTM)을 사용하여 합성되어 전체 레이아웃의 인코딩을 얻고, 이후 이미지로 디코딩됩니다. 여러 손실 항(loss terms)이 도입되어 정확하고 다양하게 생성하도록 유도합니다. 제안된 Layout2Im 모델은 매우 어려운 COCO-Stuff 및 Visual Genome 데이터셋에서 최고 보고된 Inception 점수를 각각 24.66%와 28.57% 향상시키며, 이전 최신 기술(state of the art)보다 크게 우수한 성능을 보였습니다. 광범위한 실험 또한 우리 방법이 다중 객체를 포함하는 복잡하고 다양한 이미지를 생성할 수 있는 능력을 입증하였습니다.