FreeMorph: 확산 모델을 이용한 튜닝이 필요 없는 일반화된 이미지 변형

우리는 FreeMorph를 소개합니다. 이는 서로 다른 의미나 레이아웃을 가진 입력 이미지를 처리할 수 있는 첫 번째 튜닝이 필요하지 않은 이미지 변형 방법입니다. 기존의 방법들은 사전 학습된 확산 모델을 미세 조정(finetuning)하여 시간 제약과 의미/레이아웃 불일치로 인한 한계를 가지고 있지만, FreeMorph는 각각의 인스턴스에 대한 학습 없이도 고해상도 이미지 변형을 제공합니다. 이러한 효율성과 잠재력에도 불구하고, 튜닝이 필요하지 않은 방법들은 다단계 노이즈 제거 과정의 비선형 특성과 사전 학습된 확산 모델에서 유래된 편향으로 인해 고품질 결과를 유지하는 데 어려움을 겪습니다. 본 논문에서는 이러한 문제들을 해결하기 위해 두 가지 주요 혁신을 통합한 FreeMorph를 제안합니다. 1) 먼저, 입력 이미지로부터 명시적인 안내를 받아 자기 주의(self-attention) 모듈을 수정하여 정체성 손실을 해결하고 생성된 시퀀스 전체에서 방향성을 유지하는 안내 인식 구면 보간 설계(guidance-aware spherical interpolation design)를 제안합니다. 2) 또한, 각 입력 이미지에서 파생된 자기 주의 모듈들을 혼합하여 양쪽 입력 모두를 존중하면서 제어되고 일관된 전환을 실현하는 단계 지향적 변화 추세(step-oriented variation trend)를 도입합니다. 우리의 광범위한 평가 결과는 FreeMorph가 기존 방법들보다 우수하며, 최대 50배 더 빠르고 새로운 최첨단(image morphing state-of-the-art) 이미지 변형 기술임을 입증하고 있습니다.