2달 전

MasaCtrl: 일관된 이미지 생성 및 편집을 위한 튜닝이 필요 없는 상호 자기 주의 제어

Mingdeng Cao; Xintao Wang; Zhongang Qi; Ying Shan; Xiaohu Qie; Yinqiang Zheng
MasaCtrl: 일관된 이미지 생성 및 편집을 위한 튜닝이 필요 없는 상호 자기 주의 제어
초록

대규모 텍스트-이미지 생성 및 텍스트 조건부 이미지 편집에서의 성공에도 불구하고, 기존 방법들은 일관된 생성 및 편집 결과를 생성하는 데 여전히 어려움을 겪고 있습니다. 예를 들어, 생성 접근법은 동일한 객체나 캐릭터의 여러 시점이나 자세를 가진 이미지를 합성하는 데 실패하는 경우가 많습니다. 한편, 기존의 편집 방법들은 전체적인 질감과 정체성을 유지하면서 효과적인 복잡한 비강체 편집을 수행하지 못하거나, 이미지 특유의 외관을 포착하기 위해 시간이 많이 소요되는 미세 조정이 필요합니다. 본 논문에서는 이러한 문제를 해결하기 위해 MasaCtrl이라는 미세 조정이 필요 없는 방법을 개발하여 일관된 이미지 생성과 복잡한 비강체 이미지 편집을 동시에 수행할 수 있도록 하였습니다. 구체적으로, MasaCtrl은 확산 모델에서 기존의 자기 주의(self-attention)를 상호 자기 주의(mutual self-attention)로 변환하여, 일관성을 위해 원본 이미지에서 연관된 로컬 콘텐츠와 질감을 조회할 수 있게 합니다. 또한 전경과 배경 간의 조회 혼동을 더욱 완화하기 위해 마스크 안내 상호 자기 주의 전략을 제안하였으며, 이 마스크는 크로스-주의(cross-attention) 맵에서 쉽게 추출할 수 있습니다. 광범위한 실험 결과는 제안된 MasaCtrl이 일관된 이미지 생성뿐만 아니라 복잡한 비강체 실제 이미지 편집에서도 인상적인 결과를 생성함을 보여주었습니다.

MasaCtrl: 일관된 이미지 생성 및 편집을 위한 튜닝이 필요 없는 상호 자기 주의 제어 | 최신 연구 논문 | HyperAI초신경