
초록
우리는 의미 레이아웃에 조건부로 사진 같은 이미지를 합성하는 접근 방식을 제시합니다. 의미 라벨 맵이 주어지면, 우리의 접근 방식은 입력 레이아웃에 맞는 사진 같은 외관의 이미지를 생성합니다. 따라서 이 접근 방식은 장면의 2차원 의미 사양을 받아 해당하는 사진 이미지를 생성하는 렌더링 엔진으로 기능합니다. 최근 및 동시대 연구와 달리, 우리의 접근 방식은 적대적 훈련에 의존하지 않습니다. 우리는 적절한 구조를 가진 단일 순방향 네트워크가 직접 회귀 목표로 end-to-end로 훈련될 때, 의미 레이아웃에서 사진 같은 이미지를 합성할 수 있음을 보여줍니다. 제시된 접근 방식은 고해상도로 원활하게 확장되며, 이를 2메가픽셀 해상도의 사진 이미지 생성으로 시연합니다. 이 해상도는 우리 훈련 데이터의 전체 해상도입니다. 실외 및 실내 장면 데이터셋에 대한 광범위한 지각 실험을 통해 제시된 접근 방식으로 합성된 이미지가 대안적인 접근 방식보다 현저히 더 사실적이음을 입증하였습니다. 결과는 보충 동영상(https://youtu.be/0fhUJT21-bs)에서 확인할 수 있습니다.