2달 전
학습을 통해 무엇과 어디를 그리는지 결정하기
Scott Reed; Zeynep Akata; Santosh Mohan; Samuel Tenka; Bernt Schiele; Honglak Lee

초록
생성적 적대 네트워크(GANs)는 최근 방 안의 모습, 앨범 커버, 만화, 얼굴, 새, 꽃 등 실제 세계 이미지를 설득력 있게 합성할 수 있는 능력을 입증하였습니다. 기존 모델들은 클래스 레이블이나 캡션과 같은 전역 제약 조건에 따라 이미지를 합성할 수 있지만, 자세나 객체 위치에 대한 제어를 제공하지 않습니다. 본 연구에서는 "무엇-어디 생성적 적대 네트워크"(Generative Adversarial What-Where Network, GAWWN)라는 새로운 모델을 제안합니다. 이 모델은 어떤 내용을 어느 위치에 그릴 것인지 설명하는 지시사항을 주어 이미지를 합성할 수 있습니다. 우리는 Caltech-UCSD 새 데이터셋에서 비격식적인 텍스트 설명과 객체 위치를 모두 고려한 128 x 128 해상도의 고품질 이미지 합성을 보여줍니다. 우리의 시스템은 새의 경계 상자와 그 구성 요소들에 대한 제어를 제공합니다. 부분 위치의 조건부 분포를 모델링함으로써, 우리의 시스템은 또한 임의의 부분 집합(예: 부리와 꼬리만)에 대한 조건부 합성을 가능하게 하며, 이를 통해 부분 위치 선택을 위한 효율적인 인터페이스를 제공합니다. 또한 MPII 인간 자세 데이터셋에서 텍스트와 위치로 제어 가능한 인간 행동 이미지 합성에 대한 초기 결과도 보여드립니다.