DreamBooth: 주제 기반 생성을 위한 텍스트-이미지 확산 모델의 미세 조정

대형 텍스트-이미지 모델은 AI의 발전에서 놀라운 도약을 이루어냈으며, 주어진 텍스트 프롬프트로부터 고품질이고 다양한 이미지를 생성할 수 있게 되었습니다. 그러나 이러한 모델들은 주어진 참조 집합 내의 주제들의 외관을 모방하고, 다른 맥락에서 이들을 새로운 형태로 합성하는 능력이 부족합니다. 본 연구에서는 텍스트-이미지 확산 모델의 "개인화"를 위한 새로운 접근 방식을 제시합니다. 입력으로 단 몇 장의 주제 이미지만 제공되면, 사전 학습된 텍스트-이미지 모델을 fine-tuning하여 특정 주제와 고유 식별자를 연결하도록 학습시킵니다. 이렇게 하면 주제가 모델의 출력 영역에 임베딩된 후, 고유 식별자를 사용하여 다양한 장면에서 새로운 사진 같은 이미지를 생성할 수 있습니다.우리 기술은 모델에 내재된 의미론적 사전 정보와 새로운 자생적 클래스-특정 사전 정보 보존 손실(autogenous class-specific prior preservation loss)을 활용하여, 참조 이미지에 나타나지 않는 다양한 장면, 자세, 시점 및 조명 조건에서 주제를 합성할 수 있도록 합니다. 우리는 이 기술을 주제 재맥락화(subject recontextualization), 텍스트 안내 시점 합성(text-guided view synthesis), 예술적 렌더링 등 이전까지 해결하기 어려웠던 여러 작업에 적용하였습니다. 이 모든 과정에서 주제의 핵심 특징을 유지합니다. 또한, 이 새로운 주제 구동 생성 작업을 위한 새로운 데이터셋과 평가 프로토콜도 제공합니다. 프로젝트 페이지: https://dreambooth.github.io/