2달 전
Null-text Inversion을 사용한 실제 이미지 편집을 위한 유도 확산 모델
Ron Mokady; Amir Hertz; Kfir Aberman; Yael Pritch; Daniel Cohen-Or

초록
최근의 텍스트 안내 확산 모델들은 강력한 이미지 생성 기능을 제공합니다. 현재, 이러한 이미지를 텍스트만으로 수정할 수 있는 방법에 대한 대규모 노력이 진행되고 있어, 직관적이고 다양한 편집을 가능하게 하고 있습니다. 본 논문에서는 정확한 역변환 기술을 소개하여, 이미지를 텍스트 기반으로 직관적으로 수정할 수 있도록 돕습니다. 제안된 역변환은 두 가지 혁신적인 핵심 구성 요소를 포함하고 있습니다: (i) 확산 모델을 위한 중심 역변환(Pivotal inversion). 현재의 방법들은 임의의 노이즈 샘플을 단일 입력 이미지로 매핑하는 것을 목표로 하지만, 우리는 각 타임스탬프마다 단일 중심 노이즈 벡터를 사용하여 이를 최적화합니다. 직접적인 역변환이 단독으로는 부족하지만, 우리의 최적화 과정에 좋은 앵커를 제공한다는 점을 보여주었습니다. (ii) NULL-텍스트 최적화. 여기서는 입력 텍스트 임베딩이 아닌, 분류기 없는 안내(classifier-free guidance)에 사용되는 무조건적인 텍스트 임베딩만을 수정합니다. 이는 모델 가중치와 조건부 임베딩을 그대로 유지하면서 프롬프트 기반 편집을 적용할 수 있게 하므로, 복잡한 모델 가중치 조정 없이도 고성능 편집이 가능합니다. 공개된 Stable Diffusion 모델을 기반으로 한 우리의 NULL-텍스트 역변환은 다양한 이미지와 프롬프트 편집에서 폭넓게 평가되었으며, 실제 이미지의 고충실도 편집 능력을 입증하였습니다.