
초록
비지도 이미지-이미지 변환은 컴퓨터 비전 분야에서 중요한 과제이자 도전적인 문제입니다. 소스 도메인의 이미지를 주어졌을 때, 해당 이미지와 대응하는 타겟 도메인의 이미지 쌍을 보지 않고도 그 조건부 분포를 학습하는 것이 목표입니다. 이 조건부 분포는 본질적으로 다중 모드(multimodal)이지만, 기존 접근 방식들은 이를 결정론적인 일대일 매핑으로 모델링하는 지나치게 단순화된 가정을 합니다. 결과적으로, 주어진 소스 도메인 이미지에서 다양한 출력을 생성하지 못합니다. 이러한 제한을 해결하기 위해, 우리는 다중 모드 비지도 이미지-이미지 변환(MUNIT) 프레임워크를 제안합니다. 우리는 이미지 표현이 도메인 간에 불변인 콘텐츠 코드와 도메인 특유의 속성을 포착하는 스타일 코드로 분해될 수 있다고 가정합니다. 한 도메인의 이미지를 다른 도메인으로 변환하기 위해서는, 그 콘텐츠 코드를 타겟 도메인의 스타일 공간에서 무작위로 샘플링된 스타일 코드와 재결합합니다. 제안된 프레임워크를 분석하고 여러 이론적 결과를 확립하였습니다. 최신 연구 접근 방식들과 비교한 광범위한 실험은 제안된 프레임워크의 우수성을 더욱 입증합니다. 또한, 우리의 프레임워크는 사용자가 예시 스타일 이미지를 제공하여 변환 출력의 스타일을 제어할 수 있도록 합니다. 코드와 사전 훈련된 모델은 https://github.com/nvlabs/MUNIT 에서 이용 가능합니다.