14일 전
GANs N' Roses: 안정적이고 조절 가능하며 다양한 이미지 간 번역 (동영상에도 적용 가능!)
Min Jin Chong, David Forsyth

초록
얼굴 이미지에서 유도된 콘텐츠 코드와 무작위로 선택된 스타일 코드를 입력으로 받아 애니메이션 이미지를 생성하는 매핑을 학습하는 방법을 제시한다. 우리는 스타일과 콘텐츠를 간단하면서도 효과적인 방식으로 정의함으로써 적대적 손실(advantageous loss)을 도출한다. 이 적대적 손실은 매핑이 다양한 특성을 갖도록 보장하며, 단일 콘텐츠 코드로부터 매우 광범위한 애니메이션 스타일을 생성할 수 있음을 보장한다. 타당한 가정 하에, 이 매핑은 단순히 다양할 뿐만 아니라, 입력 얼굴 이미지에 조건부한 애니메이션의 확률 분포를 정확히 표현한다. 반면 현재의 다중모달 생성 방법은 애니메이션에서 나타나는 복잡한 스타일을 포착하지 못한다. 광범위한 정량적 실험 결과는 이 매핑이 올바르다는 가정을 뒷받침하며, 정성적 결과는 기존 최고 성능(SOTA) 방법과 비교해 훨씬 더 다양한 스타일을 생성할 수 있음을 보여준다. 마지막으로, 본 연구에서 제안한 콘텐츠와 스타일의 형식화는 영상 데이터에 대한 학습 없이도 영상에서 영상으로의 변환을 수행할 수 있음을 보여준다.