
최근 생성적 적대 네트워크(GANs, Generative Adversarial Networks)의 개선으로 자연어 설명(예: 이미지 캡션)을 기반으로 고해상도의 실제적인 이미지를 생성하는 것이 가능해졌습니다. 또한, 조건부 GANs는 라벨이나 자연어 설명을 통해 이미지 생성 과정을 제어할 수 있게 해줍니다. 그러나 이미지 레이아웃의 세밀한 제어, 즉 이미지 내에서 특정 객체가 어디에 위치해야 하는지를 정확히 제어하는 것은 여전히 어려운 문제입니다. 특히, 서로 다른 공간 위치에 여러 개의 구분된 객체를 포함해야 하는 이미지의 경우 더욱 그렇습니다. 우리는 생성기와 판별기에 객체 경로(object pathway)를 추가하여 이미지 내에서 임의로 많은 객체의 위치를 제어할 수 있는 새로운 접근 방식을 소개합니다. 우리의 접근 방식은 상세한 의미적 레이아웃이 필요하지 않으며, 원하는 객체의 바운딩 박스(bounding boxes)와 해당 라벨만 필요합니다. 객체 경로는 단독으로 객체에만 초점을 맞추고, 바운딩 박스가 지정한 위치에서 반복적으로 적용됩니다. 전역 경로(global pathway)는 이미지 배경과 일반적인 이미지 레이아웃에 초점을 맞춥니다.우리는 Multi-MNIST, CLEVR, 그리고 더 복잡한 MS-COCO 데이터셋에서 실험을 수행했습니다. 실험 결과, 객체 경로를 사용함으로써 우리는 이미지 내에서 객체 위치를 제어하고 다양한 위치에 여러 개의 객체가 있는 복잡한 장면을 모델링할 수 있었습니다. 또한, 객체 경로가 단독으로 객체에 초점을 맞추고 이러한 객체와 관련된 특성을 학습하는 반면, 전역 경로는 전체 이미지 특성과 배경에 초점을 맞추는 것을 보여주었습니다.