스트리트 트라이온: 쌍화되지 않은 인체 이미지에서의 자연계 가상 트라이온 학습

대부분의 가상 시착 연구는 패션 산업을 지원하기 위해 스튜디오 모델을 대상으로 옷을 입힌 이미지를 낮은 비용으로 생성하는 데 목적을 두고 있다. 그러나 가상 시착은 스튜디오 모델이 아닌, 개인의 일상 사진을 활용해 자신이 옷을 입은 모습을 시각화할 수 있도록 해주는 더 광범위한 응용이 되어야 한다. 이를 ‘실외 환경 시착(In-the-wild try-on)’이라고 한다.遗憾하게도, 기존의 방법들은 스튜디오 환경에서 타당한 결과를 얻을 수는 있지만, 실외 환경에서는 성능이 저조하다. 그 이유는 이러한 방법들이 보통 훈련을 위해 쌍(옷 이미지와 같은 옷을 입은 사람의 이미지가 짝을 이루는 데이터)을 필요로 하기 때문이다. 스튜디오 환경에서는 쇼핑 웹사이트에서 쌍 데이터를 쉽게 수집할 수 있지만, 실외 환경에서는 이를 확보하는 것이 매우 어렵다.본 연구에서는 이 격차를 메우기 위해 (1) 실외 환경 시착 응용을 지원할 수 있도록 ‘StreetTryOn’ 벤치마크를 도입하고, (2) 쌍 데이터 없이도 실외 환경의 인체 이미지 집합에서 직접 가상 시착을 학습할 수 있는 새로운 방법을 제안한다. 특히, 다양한 인간 자세에 맞춰 옷을 왜곡하고, 더 복잡한 배경을 정확하게 렌더링하는 등의 고유한 도전 과제를 해결하기 위해, 새로운 DensePose 왜곡 보정 기법과 확산 기반 조건부 보정(Inpainting) 기법을 결합한다. 실험 결과, 전통적인 스튜디오 시착 작업에서는 경쟁력 있는 성능을 보였으며, 실외 시착 및 다중 도메인 시착 작업에서는 최신 기술(SOTA) 수준의 성능을 달성하였다.