2달 전

BLIP-Diffusion: 제어 가능한 텍스트-이미지 생성 및 편집을 위한 사전 학습된 주제 표현

Dongxu Li; Junnan Li; Steven C.H. Hoi
BLIP-Diffusion: 제어 가능한 텍스트-이미지 생성 및 편집을 위한 사전 학습된 주제 표현
초록

주제 주도형 텍스트-이미지 생성 모델은 텍스트 프롬프트를 기반으로 입력된 주제의 새로운 표현을 생성합니다. 기존 모델들은 긴 미세 조정(fine-tuning) 과정과 주제의 정확한 재현(subject fidelity) 유지에 어려움을 겪고 있습니다. 이러한 한계를 극복하기 위해, 우리는 새로운 주제 주도형 이미지 생성 모델인 BLIP-디퓨전(BLIP-Diffusion)을 소개합니다. 이 모델은 주제 이미지와 텍스트 프롬프트를 입력으로 사용하는 다중모달 제어(multimodal control)를 지원합니다. 다른 주제 주도형 생성 모델들과 달리, BLIP-디퓨전은 사전 학습(pre-trained)된 새로운 다중모달 인코더(multimodal encoder)를 도입하여 주제 표현(subject representation)을 제공합니다.우리는 먼저 BLIP-2의 방법을 따르며, 시각적 표현(visual representation)이 텍스트와 일치하도록 다중모달 인코더를 사전 학습시킵니다. 그런 다음, 이러한 시각적 표현을 활용하여 새로운 주제 표현을 생성할 수 있는 확산 모델(diffusion model)을 위한 주제 표현 학습 작업(subject representation learning task)을 설계합니다. DreamBooth 등의 이전 방법들과 비교해 볼 때, 우리의 모델은 제로샷(zero-shot) 주제 주도형 생성이 가능하며, 최대 20배 빠른 속도로 맞춤형(customized) 주제에 대한 효율적인 미세 조정(fine-tuning)을 지원합니다. 또한, BLIP-디퓨전이 ControlNet 및 프롬프트-투-프롬프트(prompt-to-prompt) 등 기존 기술들과 유연하게 결합되어 새로운 주제 주도형 생성 및 편집 응용 프로그램들을 가능하게 함을 보여줍니다.코드와 모델은 https://github.com/salesforce/LAVIS/tree/main/projects/blip-diffusion에서 공개될 예정입니다. 프로젝트 페이지는 https://dxli94.github.io/BLIP-Diffusion-website/에서 확인하실 수 있습니다.

BLIP-Diffusion: 제어 가능한 텍스트-이미지 생성 및 편집을 위한 사전 학습된 주제 표현 | 최신 연구 논문 | HyperAI초신경