Zero-shot Image-to-Image Translation 제로샷 이미지-이미지 변환

대규모 텍스트-이미지 생성 모델은 다양한 고품질 이미지를 합성하는 데 그들의 뛰어난 능력을 보여주었습니다. 그러나 이러한 모델을 실제 이미지 편집에 직접 적용하는 것은 두 가지 이유로 여전히 어려움이 있습니다. 첫째, 사용자가 입력 이미지의 모든 시각적 세부 사항을 정확하게 설명할 수 있는 완벽한 텍스트 프롬프트를 생각해내는 것이 어렵습니다. 둘째, 기존 모델들은 특정 영역에서 원하는 변화를 도입할 수 있지만, 종종 입력 내용을 크게 변경하고 원하지 않는 영역에서 예상치 못한 변화를 일으킵니다.본 연구에서는 원본 이미지의 콘텐츠를 유지하면서 수동 프롬프팅 없이 이미지를 편집할 수 있는 방법인 pix2pix-zero(픽스투픽스 제로)를 제안합니다. 먼저, 텍스트 임베딩 공간에서 원하는 편집을 반영하는 편집 방향을 자동으로 발견합니다. 이후 편집 후 일반적인 콘텐츠 구조를 유지하기 위해, 입력 이미지의 크로스 어텐션 맵을 확산 과정 전반에 걸쳐 유지하려는 크로스 어텐션 가이던스(Cross-Attention Guidance)를 추가로 제안합니다. 또한, 본 방법은 이러한 편집을 위해 추가적인 학습이 필요하지 않으며, 기존의事前訓練된 텍스트-이미지 확산 모델을 직접 활용할 수 있습니다. 우리는 광범위한 실험을 수행하여, 본 방법이 실제 및 합성 이미지 편집 모두에서 기존 및 동시 진행 중인 연구보다 우수한 성능을 보임을 입증하였습니다.注:在最后一句中,“事前訓練된”是“预训练的”的韩语翻译,但这里使用了中文字符。正确的韩语翻译应该是“사전 학습된”。以下是修正后的版本:우리는 광범위한 실험을 수행하여, 본 방법이 실제 및 합성 이미지 편집 모두에서 기존 및 동시 진행 중인 연구보다 우수한 성능을 보임을 입증하였습니다。