FastComposer: 지역화된 주의를 이용한 튜닝이 필요 없는 다중 객체 이미지 생성

확산 모델은 텍스트-이미지 생성, 특히 개인화된 이미지를 위한 주제 기반 생성에서 뛰어납니다. 그러나 기존 방법들은 주제별 미세 조정(fine-tuning)이 필요하여 효율성이 떨어집니다. 이는 계산적으로 비용이 많이 들고, 효율적인 배포를 방해합니다. 또한, 기존 방법들은 여러 주체가 포함된 이미지 생성에서 어려움을 겪습니다. 이는 주체들 간의 특징이 혼합되기 때문입니다. 우리는 이러한 문제점을 해결하기 위해 미세 조정 없이 효율적이고 개인화된 다중 주체 텍스트-이미지 생성을 가능하게 하는 FastComposer를 제시합니다.FastComposer는 이미지 인코더로 추출한 주제 임베딩(subject embeddings)을 사용하여 확산 모델의 일반적인 텍스트 조건부(generic text conditioning)를 강화합니다. 이를 통해 단순히 순방향 전달(forward passes)만으로도 주제 이미지와 텍스트 지침에 기반한 개인화된 이미지 생성을 실현할 수 있습니다. 다중 주체 생성에서의 정체성 혼동(identity blending) 문제를 해결하기 위해, FastComposer는 학습 중 교차-주목력(cross-attention) 위치 감독(localization supervision)을 제안합니다. 이는 참조 주체들의 주목력이 대상 이미지의 올바른 영역에 국한되도록 강제하는 역할을 합니다.주제 임베딩에 대해 단순히 조건부로 설정하면 과적합(overfitting) 문제가 발생할 수 있습니다. FastComposer는 노이즈 제거(denoising) 단계에서 지연된 주제 조건부(delayed subject conditioning)를 제안하여, 주제 기반 이미지 생성 시 정체성과 편집 가능성(editability)을 유지할 수 있도록 합니다. FastComposer는 다양한 스타일, 동작, 그리고 맥락을 가진 여러 미확인 개체(unseen individuals)의 이미지를 생성할 수 있으며, 기존의 미세 조정 기반 방법보다 300배에서 2500배 더 빠르게 작동하며 새로운 주체에 대한 추가 저장 공간이 필요하지 않습니다.FastComposer는 효율적이면서도 개인화되고 고품질인 다중 주체 이미지 생성을 위한 길을 열어줍니다. 코드, 모델, 및 데이터셋은 https://github.com/mit-han-lab/fastcomposer 에서 제공됩니다.