7일 전
스타일 주입을 통한 디퓨전: 스타일 전이를 위한 대규모 디퓨전 모델 적응을 위한 훈련 없음 기법
Jiwoo Chung, Sangeek Hyun, Jae-Pil Heo

초록
확산 모델의 놀라운 생성 능력에도 불구하고, 기존의 확산 모델 기반 스타일 전이 방법은 추론 단계에서 최적화(예: 스타일에 대한 피니테이닝 또는 텍스트 인버전)를 필요로 하며, 이는 시간이 오래 걸리거나 대규모 확산 모델의 생성 능력을 제대로 활용하지 못하는 문제를 야기한다. 이러한 문제를 해결하기 위해, 어떠한 최적화 없이 사전 훈련된 대규모 확산 모델 기반의 새로운 예술적 스타일 전이 방법을 제안한다. 구체적으로, 교차 어텐션 메커니즘이 작동하는 방식과 유사하게 자기 어텐션 레이어의 특징을 조작하며, 생성 과정에서 콘텐츠의 키(Key)와 밸류(Value)를 스타일 이미지의 키와 밸류로 대체한다. 본 방법은 다음과 같은 바람직한 특성을 제공한다: 1) 유사한 스타일이 유사한 이미지 패치로 전이되어 콘텐츠를 보존하는 특성; 2) 콘텐츠 이미지와 스타일 이미지 간의 국소적인 텍스처(예: 에지) 유사성 기반의 스타일 전이. 또한, 원본 콘텐츠의 왜곡을 완화하기 위해 쿼리 보존(query preservation)과 어텐션 온도 스케일링(attention temperature scaling)을 도입하였으며, 색조의 불일치(스타일의 색상 전이 실패) 문제를 해결하기 위해 초기 잠재 공간의 적응형 인스턴스 정규화(Adaptive Instance Normalization, AdaIN)를 활용한다. 실험 결과, 제안한 방법이 전통적 및 확산 모델 기반 스타일 전이 벤치마크 모두에서 최신 기술을 초월함을 입증하였다.