AdaAttN: 임의의 신경망 스타일 전송에서 주의 메커니즘 재검토

빠른 임의의 신경망 스타일 전송은 다양한 응용 프로그램을 가능하게 하는 유연성으로 학계, 산업계 및 예술계에서 널리 주목받고 있습니다. 기존의 솔루션들은 깊은 스타일 특성을 깊은 콘텐츠 특성에 주의적으로 융합하거나, 스타일에 따라 깊은 콘텐츠 특성을 적응적으로 정규화하여 전역 통계량이 일치하도록 합니다. 이러한 방법들이 효과적이긴 하지만, 얕은 특성을 탐구하지 않고 지역 통계량을 고려하지 않기 때문에 비자연스러운 출력과 불쾌한 지역 왜곡이 발생하기 쉽습니다. 이 문제를 완화하기 위해 본 논문에서는 새로운 주의와 정규화 모듈인 적응적 주의 정규화(Adaptive Attention Normalization, AdaAttN)를 제안합니다. 이 모듈은 각 점별로 주의적인 정규화를 수행합니다. 구체적으로, 공간적 주의 점수는 콘텐츠 이미지와 스타일 이미지의 얕은 특성과 깊은 특성 모두에서 학습됩니다. 그런 다음 각 점별 가중 통계량을 모든 스타일 특성점들의 주의 가중 출력 분포로 간주하여 계산됩니다. 마지막으로, 콘텐츠 특성이 계산된 각 점별 가중 스타일 특성 통계량과 동일한 지역 특성 통계량을 나타내도록 정규화됩니다. 또한, AdaAttN 기반으로 새로운 지역 특성 손실 함수를 도출하여 지역 시각 품질을 개선하였습니다. 우리는 또한 약간의 수정을 통해 비디오 스타일 전송에 대비한 AdaAttN 확장을 제안합니다. 실험 결과, 우리의 방법이 최신 임의 이미지/비디오 스타일 전송 성능을 달성함을 보여주었습니다. 코드와 모델은 공개되어 있습니다.