Command Palette

Search for a command to run...

16일 전

WithAnyone: 통제 가능하고 ID 일관성을 갖춘 이미지 생성을 향하여

WithAnyone: 통제 가능하고 ID 일관성을 갖춘 이미지 생성을 향하여

초록

정체성 일관성 생성은 텍스트-이미지 연구에서 중요한 주제로 부상하였으며, 최근 모델들은 참조 정체성과 일치하는 이미지를 효과적으로 생성하는 데 있어 두드러진 성과를 거두었다. 그러나 동일 개인의 여러 이미지를 포함하는 대규모 쌍체 데이터셋의 부족으로 인해, 대부분의 접근 방식은 재구성 기반 학습을 채택하게 된다. 이와 같은 의존성은 '복사-붙여넣기'(copy-paste)라는 실패 모드를 유발하는 경우가 많으며, 이는 모델이 참조 얼굴을 직접 복제함으로써 자세, 표정, 조명 등의 자연스러운 변화 속에서도 정체성을 유지하지 못하는 현상을 의미한다. 이러한 과도한 유사성은 제어 가능성과 생성의 표현력을 저해한다. 이러한 한계를 극복하기 위해 본 연구는 (1) 다수 인물 상황을 고려해 설계된 대규모 쌍체 데이터셋인 MultiID-2M을 구축하여 각 정체성에 대해 다양한 참조 이미지를 제공하고, (2) 복사-붙여넣기 아티팩트를 정량화하고, 정체성 충실도와 변동성 사이의 트레이드오프를 평가할 수 있는 벤치마크를 제안하며, (3) 쌍체 데이터를 활용하여 충실도와 다양성의 균형을 이루는 대비형 정체성 손실(contrastive identity loss)을 도입한 새로운 학습 프레임워크를 제안한다. 이러한 기여를 바탕으로, 본 연구는 복사-붙여넣기 문제를 효과적으로 완화하면서도 높은 정체성 유사도를 유지하는 확산 기반 모델인 WithAnyone을 개발하였다. 광범위한 정성적 및 정량적 실험을 통해 WithAnyone이 복사-붙여넣기 아티팩트를 크게 줄이고, 자세 및 표정에 대한 제어력을 향상시키며, 강력한 시각적 품질을 유지함을 입증하였다. 사용자 실험을 통해 본 방법이 높은 정체성 충실도를 달성하면서도 표현력 있는 제어 가능한 생성을 가능하게 함을 추가로 검증하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
WithAnyone: 통제 가능하고 ID 일관성을 갖춘 이미지 생성을 향하여 | 연구 논문 | HyperAI초신경