16일 전

자연스러운 혼잡한 장면에서 강건한 3D 인간 메시 추정 학습하기

Hongsuk Choi, Gyeongsik Moon, JoonKyu Park, Kyoung Mu Lee
자연스러운 혼잡한 장면에서 강건한 3D 인간 메시 추정 학습하기
초록

실제 환경에서 혼잡한 장면에서 단일 인물의 3D 인간 메시를 복원하는 문제를 고려한다. 3D 인간 메시 추정 분야에서는 많은 진전이 있었지만, 테스트 입력이 혼잡한 장면일 경우 기존 방법들은 성능이 저하된다. 이와 같은 실패의 첫 번째 원인은 학습 데이터와 테스트 데이터 간의 도메인 갭(domain gap)이다. 정확한 3D 레이블을 제공하는 모션 캡처 데이터셋은 혼잡한 장면 데이터를 포함하지 않으며, 이로 인해 네트워크가 대상 인물에 대한 혼잡한 장면에 강건한 이미지 특징을 학습하는 데 어려움을 겪는다. 두 번째 원인은 여러 사람을 포함하는 국소화된 경계상자(bounding box)의 특징 맵을 공간적으로 평균화하는 특징 처리 방식이다. 전체 특징 맵을 평균화하면 대상 인물의 특징이 다른 사람들과 구별되지 않게 된다. 본 연구에서는 실외 혼잡한 장면을 처음으로 명시적으로 대상으로 삼고, 위의 문제들을 해결함으로써 강건한 3D 인간 메시를 추정하는 3DCrowdNet을 제안한다. 첫째, 3D 레이블이 필요한 모션 캡처 데이터셋 없이도 학습이 가능한 2D 인간 자세 추정 기법을 활용하여 도메인 갭 문제를 회피한다. 둘째, 대상 인물의 특징을 다른 사람들과 구별할 수 있는 관절 기반 회귀기(joint-based regressor)를 제안한다. 본 관절 기반 회귀기는 대상 인물의 관절 위치에서 특징을 샘플링함으로써 대상의 공간적 활성도를 유지하고, 인간 모델 파라미터를 회귀한다. 그 결과 3DCrowdNet은 대상 중심의 특징을 학습하고, 주변 인물의 관련 없는 특징을 효과적으로 배제한다. 다양한 벤치마크에서 실험을 수행한 결과, 3DCrowdNet이 실외 혼잡한 장면에 대해 정량적·정성적으로 강건함을 입증하였다. 코드는 https://github.com/hongsukchoi/3DCrowdNet_RELEASE 에 공개되어 있다.

자연스러운 혼잡한 장면에서 강건한 3D 인간 메시 추정 학습하기 | 최신 연구 논문 | HyperAI초신경