다중 자세 안내형 가상 피팅 네트워크로의 진전

임의의 인간 자세에서 가상 피팅 시스템은 큰 응용 가능성을 가지고 있지만, 많은 도전 과제를 제기합니다. 예를 들어, 자기 자신에 의한 가림 현상(self-occlusions), 다양한 자세 간의 심각한 맞춤 오류(heavy misalignment), 그리고 다양한 의류 질감(diverse clothes textures) 등이 있습니다. 기존 방법들은 새로운 의류를 사람에게 맞추는 것을 목표로 하지만, 고정된 인간 자세(fixed human pose)에서만 의류를 전송할 수 있으며, 여전히 불만족스러운 성능을 보입니다. 이는 종종 정체성(identity)을 유지하지 못하고, 질감 세부 정보(texture details)를 잃으며, 자세 다양성(diversity of poses)을 감소시키는 문제를 초래합니다. 본 논문에서는 다중 자세 안내형 가상 피팅 시스템(multi-pose guided virtual try-on system)으로의 첫 번째 시도를 제안하며, 이 시스템은 다양한 자세 하에서 사람 이미지에 의류를 전송할 수 있습니다. 입력 사람 이미지, 원하는 의류 이미지, 그리고 원하는 자세가 주어질 때, 제안된 다중 자세 안내형 가상 피팅 네트워크(MG-VTON)는 원하는 의류를 입력 이미지에 맞추고 인간 자세를 조작하여 새로운 사람 이미지를 생성할 수 있습니다.본 연구의 MG-VTON은 세 단계로 구성됩니다: 1) 목표 이미지의 원하는 인간 파싱 맵(desired human parsing map)을 합성하여 원하는 자세와 원하는 의류 형태(desired clothes shape) 모두와 일치시킵니다; 2) 깊은 와핑 생성적 적대 신경망(Warp-GAN)이 합성된 인간 파싱 맵으로 원하는 의류 외관(desired clothes appearance)을 와핑(warping)하여 입력 인간 자세(input human pose)와 원하는 인간 자세(desired human pose) 사이의 맞춤 오류(misalignment problem)를 완화합니다; 3) 다중 자세 구성 마스크(multi-pose composition masks)를 활용한 정교화 렌더링(refinement render)이 의류의 질감 세부 정보(texture details of clothes)를 복원하고 일부 아티팩트(artifacts)를 제거합니다. 잘 알려진 데이터셋과 우리 새로 수집한 가장 큰 가상 피팅 벤치마크(newly collected largest virtual try-on benchmark)에서 수행된 광범위한 실험 결과, 본 연구의 MG-VTON은 모든 최신 방법(state-of-the-art methods)보다 양적 및 질적으로 크게 우수하며 유망한 다중 자세 가상 피팅 성능(multi-pose virtual try-on performances)을 보여주었습니다.