정확한 3D 체형 회귀를 위한 계량적 및 의미적 속성 활용

이미지에서 3D 인간 메시를 회귀하는 방법들이 빠르게 발전했음에도 불구하고, 추정된 신체 형태는 종종 실제 인간의 형태를 정확히 포착하지 못합니다. 이는 많은 응용 분야에서 정확한 신체 형태가 자세만큼이나 중요하기 때문에 문제입니다. 신체 형태의 정확도가 자세의 정확도에 비해 뒤처지는 주요 이유는 데이터 부족 때문입니다. 인간은 2D 관절을 라벨링할 수 있으며, 이는 3D 자세를 제약하지만, 3D 신체 형태를 "라벨링"하는 것은 그렇게 쉽지 않습니다. 이미지와 3D 신체 형태가 짝을 이루는 데이터가 드물기 때문에, 우리는 두 가지 정보 출처를 활용합니다: (1) 다양한 "패션" 모델들의 인터넷 이미지를 수집하고 소규모 인체 측정값을 함께 모읍니다; (2) 넓은 범위의 3D 신체 메시와 모델 이미지에 대한 언어적 형태 속성을 수집합니다.이 두 데이터셋을 결합하면 밀도 있는 3D 형태를 추론하는 데 충분한 제약 조건을 제공합니다. 우리는 이러한 인체 측정값과 언어적 형태 속성을 여러 새로운 방식으로 활용하여 RGB 이미지에서 3D 인간 자세와 형태를 회귀하는 신경망인 SHAPY(Shape and Pose from Images)를 훈련시킵니다. 우리는 공개 벤치마크에서 SHAPY를 평가하였지만, 이들 벤치마크는 중요한 신체 형태 다양성, 실제 형태 또는 의상 다양성이 부족하다는 점을 지적해야 합니다. 따라서, 우리는 "야생 상태의 인간 신체" 사진과 해당 사진의 실제 3D 스캔 데이터가 포함된 새로운 데이터셋인 HBW(Human Bodies in the Wild)를 수집하여 3D 인간 신체 추정을 평가하였습니다. 이 새로운 벤치마크에서 SHAPY는 3D 신체 형태 추정 작업에서 최신 기법들을 크게 능가하였습니다. 이 연구는 처음으로 이미지로부터 3D 신체 형태 회귀를 쉽게 얻을 수 있는 인체 측정값과 언어적 형태 속성을 사용하여 훈련할 수 있다는 것을 입증하였습니다. 우리의 모델과 데이터셋은 다음 주소에서 이용 가능합니다: shapy.is.tue.mpg.de