StyTr2: Transformers를 활용한 이미지 스타일 전이

이미지 스타일 전이의 목적은 원본 콘텐츠를 유지하면서 스타일 참조를 기반으로 예술적 특성을 이미지에 적용하는 것이다. 기존의 합성곱 신경망(Convolutional Neural Networks, CNN)은 국소성(locality)을 가지므로 입력 이미지의 전역 정보를 추출하고 유지하는 것이 어렵다. 이로 인해 기존의 신경망 기반 스타일 전이 방법들은 콘텐츠 표현에 편향을 보이는 문제가 있다. 이러한 핵심 문제를 해결하기 위해, 본 연구에서는 입력 이미지의 장거리 의존성(long-range dependencies)을 고려하여, 트랜스포머 기반의 새로운 접근법인 StyTr^2를 제안한다. 다른 비전 작업을 위한 시각 트랜스포머와 달리, StyTr^2는 콘텐츠와 스타일 각각에 특화된 서로 다른 두 개의 트랜스포머 인코더를 포함하고 있다. 인코더를 거친 후, 다층 트랜스포머 디코더를 사용하여 스타일 시퀀스에 따라 콘텐츠 시퀀스를 스타일링한다. 또한 기존의 위치 인코딩(positional encoding) 방법의 한계를 분석하고, 스케일 불변(scale-invariant)이며 이미지 스타일 전이 작업에 더 적합한 콘텐츠 인식형 위치 인코딩(Content-aware Positional Encoding, CAPE)을 제안한다. 정성적 및 정량적 실험을 통해 제안된 StyTr^2가 최신의 CNN 기반 및 플로우 기반 접근법과 비교하여 우수한 성능을 보임을 입증하였다. 코드 및 모델은 https://github.com/diyiiyiii/StyTR-2 에서 공개되어 있다.