이미지에서 몸체를 회귀하기 위한 차별화 가능한 의미 렌더링을 이용한 학습

단일 카메라 이미지에서 3D 인간 신체 모양과 자세(예: SMPL 매개변수)를 회귀하는 것은 일반적으로 3D 학습 데이터가 없는 경우 2D 키포인트, 실루엣, 및/또는 부위 분할 손실을 활용합니다. 그러나 이러한 손실은 2D 키포인트가 신체 모양을 감독하지 않고, 옷을 입은 사람들의 분할이 최소한으로 옷을 입은 SMPL 모양의 투영과 일치하지 않기 때문에 제한적입니다. 더 풍부한 이미지 정보를 활용하기 위해 우리는 옷을 입은 사람에 대한 고차원적인 의미론적 정보를 도입하여 이미지의 옷을 입은 부분과 입지 않은 부분을 다르게 처벌합니다. 이를 위해 우리는 새로운 차별화 가능한 의미론적 렌더링(DSR 손실)을 사용하여 신체 회귀기를 학습시킵니다.최소로 옷을 입은 부분에 대해서는 DSR-MC 손실을 정의하여 렌더링된 SMPL 신체와 이미지의 최소로 옷을 입은 부분 사이의 밀접한 일치를 촉진합니다. 옷을 입은 부분에 대해서는 DSR-C 손실을 정의하여 렌더링된 SMPL 신체가 옷 마스크 내부에 있도록 합니다. 엔드투엔드 차별화 가능한 학습을 보장하기 위해, 수천 개의 옷을 입은 인간 스캔에서 SMPL 꼭짓점의 의미론적 의복 사전지를 학습합니다.우리는 의복 의미론이 3D 인간 자세 및 모양 추정의 정확성에 미치는 영향을 평가하기 위해 광범위한 질적 및 양적 실험을 수행했습니다. 3DPW 및 Human3.6M에서 이전 최신 방법들을 모두 능가하며, MPI-INF-3DHP에서는 유사한 결과를 얻었습니다. 연구용 코드 및 학습된 모델들은 https://dsr.is.tue.mpg.de/ 에서 제공됩니다.