시각 지도 및 마스크 향상 적응형 노이즈 제거를 위한 프롬프트 기반 이미지 편집

텍스트-이미지 확산 모델은 텍스트 프롬프트로부터 고품질 이미지를 생성하는 데에서 뛰어난 진전을 보여주었으며, 이는 대상 프롬프트에 따라 원본 이미지를 편집하는 프롬프트 기반 이미지 편집 연구를 촉진하고 있습니다. 그러나 이러한 방법들은 여전히 세 가지 주요 문제를 겪고 있습니다: 1) 대상 이미지 생성을 안내하는 데 있어 텍스트 프롬프트의 제한된 용량, 2) 단어-패치 및 패치-패치 관계의 부족한 추출로 인해 편집 영역을 지정하는 데 어려움, 3) 각 노이즈 제거 단계에서 모든 영역에 대해 일관된 편집 강도 적용. 이러한 문제들을 해결하기 위해, 우리는 세 가지 핵심적인 새로운 설계를 포함하는 시각 유도 및 마스크 강화 적응형 편집(Vision-guided and Mask-enhanced Adaptive Editing, ViMAEdit) 방법을 제시합니다.첫째, 우리는 이미지 임베딩을 명시적 안내로 활용하여 전통적인 텍스트 프롬프트 기반 노이즈 제거 과정을 강화하는 방안을 제안합니다. 여기서 CLIP 기반 대상 이미지 임베딩 추정 전략이 도입됩니다. 둘째, 자기 주의(self-attention) 맵에서 전달되는 패치-패치 관계를 반복적으로 활용하여 크로스 주의(cross-attention) 맵에 포함된 단어-패치 관계를 정교하게 조정하는 자기 주의 안내 반복적 편집 영역 지정 전략을 개발하였습니다. 마지막으로, 공간적으로 적응적인 분산 안내 샘플링(spatially adaptive variance-guided sampling) 방법을 제시합니다. 이 방법은 중요한 이미지 영역의 샘플링 분산을 강조하여 편집 능력을 증진시키는 역할을 합니다.실험 결과는 ViMAEdit가 모든 기존 방법보다 우수한 편집 능력을 보임을 입증하였습니다.