11일 전

전체 범위의 가상 시도를 위한 순환 삼중 수준 변환

{Ziwei Liu, Xinrui Yu, Han Yang}
전체 범위의 가상 시도를 위한 순환 삼중 수준 변환
초록

가상 체험(가상 시착)은 대상 의류 이미지를 참조 인물에 전달하는 것을 목표로 한다. 비록 큰 진전이 이루어졌지만, 기존 연구들의 적용 범위는 여전히 표준 의류(예: 복잡한 끈이나 찢어진 효과가 없는 단순한 셔츠)에 국한되어 있으며, 비표준 의류(예: 어깨가 드러나는 셔츠, 단추 없는 드레스 등)의 방대한 복잡성과 다양성은 거의 무시되고 있다. 본 연구에서는 표준 의류뿐 아니라 비표준 의류까지 전 범위의 가상 시착을 수행할 수 있는 체계적인 프레임워크인 반복적 삼중 수준 변환(Recurrent Tri-Level Transform, RT-VTON)을 제안한다. 본 프레임워크 설계에 대한 핵심 통찰 두 가지는 다음과 같다: 1) 의미 전달을 위해서는 의류 표현의 세 가지 수준—의류 코드(clothes code), 자세 코드(pose code), 분할 코드(parsing code)—에서 점진적인 특징 변환이 필요하다. 2) 기하학적 전달을 위해서는 강성과 유연성 사이의 규제된 이미지 왜곡이 요구된다. 먼저, 국소 게이트형 주의 메커니즘(local gated attention)과 비국소 대응 학습(non-local correspondence learning)을 반복적으로 활용하여 삼중 수준의 특징 코드를 정밀하게 개선함으로써, '시착 후' 인물의 의미를 예측한다. 다음으로, 의류 이미지와 예측된 의미를 정렬하기 위해 반강성 변형(semi-rigid deformation)을 설계하여 국소 왜곡의 유사성을 유지한다. 마지막으로, 표준화된 시착 합성기(canonical try-on synthesizer)가 처리된 모든 정보를 융합하여 옷을 입은 인물의 이미지를 생성한다. 기존 벤치마크에서의 광범위한 실험과 사용자 연구를 통해 제안한 프레임워크가 정량적·정성적 측면에서 최고 수준의 성능을 달성함을 입증하였다. 특히, RT-VTON은 다양한 비표준 의류에 대해 뛰어난 성능을 보이며 놀라운 결과를 도출하였다.

전체 범위의 가상 시도를 위한 순환 삼중 수준 변환 | 최신 연구 논문 | HyperAI초신경