
초록
우리는 입력된 의미 구조를 기반으로 사진 같은 이미지를 합성하기 위한 간단하지만 효과적인 레이어인 공간적 적응 정규화(Spatially-Adaptive Normalization)를 제안합니다. 이전 방법들은 의미 구조를 딥 네트워크의 입력으로 직접 제공하여, 컨볼루션, 정규화, 비선형성 레이어 스택을 통해 처리하였습니다. 우리는 이러한 접근법이 하위 최적이며, 정규화 레이어들이 의미 정보를 "지우는" 경향이 있다는 것을 보여줍니다. 이 문제를 해결하기 위해, 우리는 입력 구조를 통해 정규화 레이어의 활성화를 조절하는 공간적으로 적응하고 학습된 변환을 사용하는 것을 제안합니다. 여러 어려운 데이터셋에 대한 실험 결과는 제안된 방법이 시각적 충실도와 입력 구조와의 일치성 측면에서 기존 접근법보다 우수함을 입증하였습니다. 마지막으로, 우리의 모델은 사용자가 의미와 스타일 모두에 대해 제어할 수 있도록 합니다. 코드는 https://github.com/NVlabs/SPADE 에서 확인할 수 있습니다.