HSPACE: 복합 환경에서 애니메이션되는 합성 파라메트릭 인간

최근 3차원 인간 감지 기술의 발전은 현실 세계 환경에서 복잡한 조명이나 가림현상 속에서 움직이는 다수의 사람을 포함하며, 움직이는 카메라로 관측될 수 있는 상황에서 3차원 지표(ground truth)를 갖춘 시각 데이터셋의 부족으로 인해 제한되고 있다. 고도화된 장면 이해를 위해서는 인간의 자세와 형태, 제스처를 추정하고, 최종적으로 유용한 메트릭 신호와 행동 신호를 자유 시점의 사실적인 시각화 기능과 통합하는 표현 방식이 필요하다. 이러한 발전을 지속하기 위해 우리는 복잡한 합성 실내 및 실외 환경에 애니메이션된 인간을 배치한 대규모 사실적인 데이터셋, Human-SPACE(HSPACE)를 구축하였다. 이 데이터셋은 나이, 성별, 체형, 인종이 다양한 100명의 인물과 수백 가지의 동작 및 장면, 그리고 몸체 형태의 매개변수적 변형(총 1,600개의 다양한 인간)을 결합하여, 100만 프레임 이상의 초기 데이터셋을 생성하였다. 인간 애니메이션은 사람의 단일 스캔 데이터에 표현력이 풍부한 인간 신체 모델 GHUM을 적합한 후, 옷을 입은 인간의 사실적인 애니메이션, 신체 비율의 통계적 변형, 다수의 움직이는 인물에 대한 일관성 있는 장면 배치를 지원하는 새로운 리타겟팅 및 위치 지정 절차를 통해 확보하였다. 자산은 대규모로 자동 생성되며, 기존의 실시간 렌더링 및 게임 엔진과 호환된다. 본 데이터셋과 평가 서버는 연구 목적을 위해 공개될 예정이다. 실제 데이터 및 약한 감독(weak supervision)과 결합된 합성 데이터의 영향에 대한 대규모 분석을 통해, 모델의 능력이 증가함에 따라 품질 향상의 상당한 잠재력과 시뮬레이션에서 실제 환경으로의 격차를 줄일 수 있는 가능성이 입증되었다.