2달 전

UPGPT: 사람 이미지 생성, 편집 및 포즈 전송을 위한 보편적 확산 모델

Soon Yau Cheong; Armin Mustafa; Andrew Gilbert

초록

텍스트-이미지 모델(T2I)인 스테이블디퓨전과 같은 모델들은 고품질의 사람 이미지를 생성하는 데 사용되어 왔습니다. 그러나 생성 과정의 무작위성 때문에 동일한 텍스트 프롬프트를 사용하더라도 사람의 자세, 얼굴, 옷 등 외모가 다르게 나타납니다. 이러한 외모 일관성 부족은 T2I 모델을 포즈 전송에 적합하지 않게 만듭니다. 이 문제를 해결하기 위해 우리는 텍스트, 포즈, 그리고 시각적 프롬프트를 받아들이는 다중모달 디퓨전 모델을 제안합니다. 우리의 모델은 모든 사람 이미지 작업 - 생성, 포즈 전송, 마스크 없는 편집을 수행하는 첫 번째 통합 방법입니다. 또한, 작은 차원의 3D 신체 모델 매개변수를 직접 사용하여 새로운 기능 - 포즈와 카메라 뷰 보간的同时维持人物外观的一致性(동시에 사람의 외모 일관성을 유지하면서) - 를 시연합니다.注：在最后一句中，“的同时维持人物外观的一致性”是中文，可能是原文中的错误。我将其翻译为“동시에 사람의 외모 일관성을 유지하면서”，以保持句子的连贯性和完整性。如果这是原文的一部分，请确认是否需要保留。