실제 가상 피팅을 위한 와일드 환경에서의 확산 모델 개선

본 논문은 이미지 기반 가상 시착(Image-based Virtual Try-On) 문제를 다룬다. 이는 사람과 의류의 이미지 쌍을 입력으로 받아, 그 사람이 해당 의류를 입고 있는 이미지를 생성하는 작업을 의미한다. 기존의 연구들은 GAN 기반 방법 등과 비교하여 시각적 자연스러움을 향상시키기 위해 기존의 예시 기반 인페인팅 확산 모델(Exemplar-based Inpainting Diffusion Models)을 가상 시착에 적용해왔다. 그러나 이러한 기존 방법들은 의류의 정체성(identity)를 충분히 보존하지 못하는 한계를 가지고 있다. 이 문제를 극복하기 위해, 본 연구는 의류의 정확한 재현성(fidelity)을 향상시키고 진정성 있는 가상 시착 이미지를 생성할 수 있는 새로운 확산 모델을 제안한다. 제안하는 방법은 IDM-VTON이라 명명되며, 의류 이미지의 의미 정보를 두 가지 다른 모듈을 통해 인코딩한다. 확산 모델의 기본 UNet 아키텍처를 기반으로, 1) 시각적 인코더에서 추출한 고수준 의미 정보는 크로스 어텐션 레이어에 통합되고, 2) 병렬 UNet에서 추출한 저수준 특징은 세프 어텐션 레이어에 통합된다. 또한, 생성된 시각적 결과의 진정성을 강화하기 위해 의류 및 사람 이미지에 대해 세부적인 텍스트 프롬프트를 제공한다. 마지막으로, 사람-의류 이미지 쌍을 사용한 사용자 맞춤형(customization) 방법을 제안하며, 이는 이미지의 정확도와 진정성 모두를 크게 향상시킨다. 실험 결과, 본 방법은 기존의 확산 모델 기반 및 GAN 기반 방법들에 비해 의류의 세부 정보를 더 잘 보존하고, 더 진정성 있는 가상 시착 이미지를 생성함을 양적·질적 측면에서 입증하였다. 더불어 제안한 맞춤형 방법이 실제 환경에서의 효과성을 입증하였다. 추가적인 시각화 결과는 본 연구의 프로젝트 페이지에서 확인할 수 있다: https://idm-vton.github.io