2달 전

PhotoMaker: 스택된 ID 임베딩을 통한 실감 나는 인간 사진 맞춤 설정

Li, Zhen ; Cao, Mingdeng ; Wang, Xintao ; Qi, Zhongang ; Cheng, Ming-Ming ; Shan, Ying
PhotoMaker: 스택된 ID 임베딩을 통한 실감 나는 인간 사진 맞춤 설정
초록

최근 텍스트-이미지 생성 기술의 발전으로 주어진 텍스트 프롬프트에 기반한 실제적인 인간 사진 합성에서 놀라운 진보가 이루어졌습니다. 그러나, 현재의 개인화된 생성 방법들은 고효율성, 유망한 신원(ID) 충실성, 그리고 유연한 텍스트 제어 가능성을 동시에 만족시키지 못합니다. 본 연구에서는 이러한 문제를 해결하기 위해 PhotoMaker라는 효율적인 개인화된 텍스트-이미지 생성 방법을 소개합니다. 이 방법은 주로 임의의 수의 입력 ID 이미지를 스택 ID 임베딩으로 인코딩하여 ID 정보를 보존하는 데 중점을 두고 있습니다. 이러한 임베딩은 통합된 ID 표현으로서, 동일한 입력 ID의 특징을 포괄적으로 포함할 뿐만 아니라 다른 ID들의 특징도 후속 통합을 위해 수용할 수 있습니다. 이는 더욱 흥미롭고 실질적으로 가치 있는 응용 분야를 열어줍니다. 또한, 우리의 PhotoMaker 학습을 지원하기 위해 신원(ID) 중심 데이터 구축 파이프라인을 제안합니다. 제안된 파이프라인을 통해 구축된 데이터셋의 도움으로, 우리의 PhotoMaker는 시험 시간 미세 조정(test-time fine-tuning) 기반 방법들보다 더 우수한 ID 보존 능력을 보여주면서도 상당한 속도 개선, 고품질 생성 결과, 강력한 일반화 능력, 그리고 다양한 응용 분야를 제공합니다. 우리 프로젝트 페이지는 https://photo-maker.github.io/ 에서 확인하실 수 있습니다.

PhotoMaker: 스택된 ID 임베딩을 통한 실감 나는 인간 사진 맞춤 설정 | 최신 연구 논문 | HyperAI초신경