StyleDiffusion: 텍스트 기반 편집을 위한 프롬프트-임베딩 역전

대규모 연구 노력이 사전 훈련된 확산 모델의 놀라운 능력을 활용하여 이미지 편집에 집중되고 있습니다. 이러한 모델들은 모델을 미세 조정(finetune)하거나, 사전 훈련된 모델의 잠재 공간(latent space)에서 이미지를 역변환(invert)하는 방법을 사용합니다. 그러나 이들 방식은 두 가지 문제를 가지고 있습니다: (1) 선택된 영역에서는 만족스러운 결과를 얻지 못하고, 비선택 영역에서는 예상치 못한 변화가 발생합니다. (2) 모든 시각적 객체를 포함해야 하는 신경망 프롬프트(text prompt)의 세심한 편집이 필요합니다.이 문제들을 해결하기 위해, 우리는 두 가지 개선점을 제안합니다: (1) 교차 주의(cross-attention) 계층에서 값 선형 네트워크(value linear network)의 입력만 최적화해도 실제 이미지를 재구성하는 데 충분히 강력하다는 점입니다. (2) 재구성과 편집 후 객체 유사 주의 맵(object-like attention maps)을 유지하기 위한 주의 정규화(attention regularization)를 제안합니다. 이를 통해 구조적인 변화 없이 정확한 스타일 편집을 수행할 수 있습니다.또한, P2P와 같은 분류기 없는 안내(classifier-free guidance)에서 사용되는 무조건적 분기(unconditional branch)에 대한 편집 기술을 더욱 개선하였습니다. 다양한 이미지에 대한 광범위한 실험적 프롬프트 편집 결과는 질적으로 그리고 양적으로 우리의 방법이 기존 및 동시 진행 중인 작업들보다 우수한 편집 능력을 가짐을 보여줍니다. 자세한 내용은 Stylediffusion 코드를 참조하시기 바랍니다: \url{https://github.com/sen-mao/StyleDiffusion}.