2달 전

InstantID: 몇 초 안에 이루어지는 제로샷 아이덴티티 보존 생성

Wang, Qixun ; Bai, Xu ; Wang, Haofan ; Qin, Zekui ; Chen, Anthony ; Li, Huaxia ; Tang, Xu ; Hu, Yao
InstantID: 몇 초 안에 이루어지는 제로샷 아이덴티티 보존 생성
초록

개인화된 이미지 합성 분야에서 텍스트 인버전(Textual Inversion), 드림부스(DreamBooth), 로라(LoRA) 등의 방법을 통해 상당한 진전이 이루어졌습니다. 그러나 이러한 방법들의 실제 적용은 높은 저장 공간 요구, 긴 미세 조정(fine-tuning) 과정, 그리고 여러 참조 이미지의 필요성으로 제약을 받고 있습니다. 반면에, 기존의 ID 임베딩(ID embedding) 기반 방법들은 단일 순방향 추론(forward inference)만 필요하지만, 많은 모델 매개변수를 걸쳐 광범위한 미세 조정이 필요하거나, 커뮤니티 사전 학습(pre-trained) 모델과 호환성이 부족하거나, 높은 얼굴 충실도(face fidelity)를 유지하지 못하는 등의 문제를 안고 있습니다.이러한 한계를 극복하기 위해, 우리는 InstantID라는 강력한 확산 모델(diffusion model) 기반 솔루션을 소개합니다. 우리의 플러그 앤 플레이(plug-and-play) 모듈은 단일 얼굴 이미지만으로 다양한 스타일의 이미지 개인화를 효과적으로 처리하면서 높은 충실도를 보장합니다. 이를 달성하기 위해, 우리는 강력한 의미론적(semantic) 조건과 약한 공간적(spatial) 조건을 부과하여 얼굴 이미지와 랜드마크(landmark) 이미지를 텍스트 프롬프트(textual prompts)와 통합하여 이미지 생성을 유도하는 새로운 IdentityNet을 설계했습니다.InstantID는 우수한 성능과 효율성을 보여주며, 정체성(identity) 보존이 중요한 실제 응용 분야에서 매우 유익하다는 것을 입증하였습니다. 또한, 우리의 연구는 SD1.5 및 SDXL과 같은 인기 있는 사전 학습 텍스트-이미지 확산 모델과 원활하게 통합되어 적응형 플러그인(adaptable plugin)으로 작동합니다. 우리의 코드와 사전 학습 체크포인트(checkpoints)는 https://github.com/InstantID/InstantID에서 제공될 예정입니다.

InstantID: 몇 초 안에 이루어지는 제로샷 아이덴티티 보존 생성 | 최신 연구 논문 | HyperAI초신경