7일 전
비지도적 의미 대응을 위한 안정적 확산
Eric Hedlin, Gopal Sharma, Shweta Mahajan, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi

초록
텍스트-이미지 확산 모델은 이제 실제 이미지와 구분하기 어려운 이미지를 생성할 수 있는 능력을 갖추고 있다. 이러한 이미지를 생성하기 위해서는 모델이 생성을 요청받은 객체의 의미적 정보를 이해해야 한다. 본 연구에서는 추가적인 학습 없이도 확산 모델 내부의 의미적 지식을 활용하여 의미적 대응 관계(여러 이미지 내에서 동일한 의미를 갖는 위치)를 탐지할 수 있음을 보여준다. 구체적으로, 주어진 이미지에 대해 관심 영역에 대한 주의 집중을 극대화하도록 모델의 프롬프트 임베딩을 최적화한다. 이 최적화된 임베딩은 해당 위치에 대한 의미적 정보를 포착하며, 이를 다른 이미지로 전이할 수 있다. 이러한 방식으로 PF-Willow 데이터셋에서 강력한 감독 학습 기반 최첨단 기법과 동등한 성능을 달성하였으며, PF-Willow, CUB-200, SPair-71k 데이터셋에서 기존의 약한 감독 또는 무감독 방법보다 뛰어난 성능(특히 SPair-71k 데이터셋에서 상대적으로 20.9% 향상)을 보였다.