Cross Attention 제어를 이용한 Prompt-to-Prompt 이미지 편집

최근 대규모 텍스트 기반 합성 모델들이 주어진 텍스트 프롬프트에 따라 매우 다양한 이미지를 생성하는 뛰어난 능력 덕분에 많은 관심을 받고 있습니다. 이러한 텍스트 기반 합성 방법은 인간이 의도를 구술로 설명하는 데 익숙하기 때문에 특히 매력적입니다. 따라서, 텍스트 기반 이미지 합성을 텍스트 기반 이미지 편집으로 확장하는 것은 당연한 일입니다. 이러한 생성 모델에서 편집은 어려운 문제로 여겨져 왔습니다. 이는 편집 기법의 본질적인 특성이 원본 이미지를 대부분 유지해야 하는데 반해, 텍스트 기반 모델에서는 프롬프트의 작은 수정조차도 완전히 다른 결과를 초래하기 때문입니다. 최신 방법들은 사용자가 공간 마스크를 제공하여 편집 범위를 제한함으로써 이 문제를 완화하려고 합니다. 그러나 이렇게 하면 마스크된 영역 내의 원래 구조와 내용이 무시됩니다.본 논문에서는 직관적인 프롬프트-투-프롬프트(Prompt-to-Prompt) 편집 프레임워크를 추구합니다. 여기서는 편집이 오직 텍스트만으로 제어됩니다. 이를 위해 우리는 텍스트 조건부 모델을 깊이 분석하고, 크로스 어텐션(Cross-Attention) 계층이 이미지의 공간 레이아웃과 프롬프트의 각 단어 간의 관계를 제어하는 데 중요한 역할을 한다는 것을 관찰했습니다. 이 관찰을 바탕으로, 우리는 오직 텍스트 프롬프트를 수정함으로써 이미지 합성을 모니터링하는 여러 응용 사례를 제시합니다. 이에는 단어를 교체하여 지역화된 편집, 명세를 추가하여 전역화된 편집, 그리고 단어가 이미지에 반영되는 정도를 섬세하게 제어하는 것 등이 포함됩니다.다양한 이미지와 프롬프트에 대한 우리의 결과를 보여주며, 고품질 합성 및 수정된 프롬프트에 대한 충실성을 입증합니다.