Command Palette
Search for a command to run...
Yufeng Cheng Wenxu Wu Shaojin Wu Mengqi Huang Fei Ding Qian He

초록
최근 이미지 커스터마이제이션 기술의 발전은 강화된 커스터마이제이션 능력 덕분에 다양한 응용 가능성을 보여주고 있다. 그러나 인간은 얼굴에 더 민감하기 때문에, 다수의 참조 이미지를 사용할 때 일관된 정체성을 유지하면서 정체성 혼동을 방지하는 것이 여전히 큰 도전 과제로 남아 있으며, 이는 커스터마이제이션 모델의 정체성 확장성에 한계를 초래한다. 이를 해결하기 위해 우리는 UMO(통합 다중 정체성 최적화 프레임워크, Unified Multi-identity Optimization framework)를 제안한다. UMO는 확장 가능한 방식으로 높은 품질의 정체성 유지와 정체성 혼동 완화를 동시에 달성하도록 설계되었으며, ‘다수 대 다수 매칭(multi-to-multi matching)’ 패러다임을 통해 다중 정체성 생성을 전역 할당 최적화 문제로 재정의한다. 이를 통해 기존의 이미지 커스터마이제이션 방법에 대해 확산 모델 기반 강화 학습을 활용하여 다중 정체성 일관성을 극대화한다. UMO의 학습을 지원하기 위해, 합성 데이터와 실제 데이터를 포함한 다수의 참조 이미지를 갖춘 확장 가능한 커스터마이제이션 데이터셋을 구축하였다. 또한 정체성 혼동을 측정할 수 있는 새로운 평가 지표를 제안하였다. 광범위한 실험 결과는 UMO가 정체성 일관성을 크게 향상시키는 것은 물론, 여러 이미지 커스터마이제이션 방법에서 정체성 혼동을 감소시킴으로써, 정체성 보존 측면에서 오픈소스 방법 중 최고의 성능을 달성함을 입증하였다. 코드 및 모델: https://github.com/bytedance/UMO