XNect: 단일 RGB 카메라를 이용한 실시간 다중 인물 3D 동작 캡처

우리는 단일 RGB 카메라를 사용하여 초당 30 프레임 이상의 속도로 여러 사람의 3D 동작을 실시간으로 캡처하는 방법을 제시합니다. 이 방법은 물체나 다른 사람들에 의한 가림 현상이 포함될 수 있는 일반적인 장면에서도 성공적으로 작동합니다. 우리의 방법은 연속적인 단계로 구성됩니다.첫 번째 단계는 모든 개체의 모든 가시 관절에 대한 2D 및 3D 자세 특징과 신원 할당을 추정하는 합성곱 신경망(CNN)입니다. 우리는 이를 위해 새로운 CNN 구조인 SelecSLS Net을 기여하는데, 이는 새로운 선택적 장단거리 스킵 연결(selective long and short range skip connections)을 사용하여 정보 흐름을 개선하고, 정확성을 저해하지 않으면서도 극적으로 빠른 네트워크를 가능하게 합니다.두 번째 단계에서는 완전히 연결된 신경망이 각 주제의 2D 자세와 3D 자세 특징(가림 현상으로 인해 부분적일 수 있음)을 완전한 3D 자세 추정치로 변환합니다.세 번째 단계에서는 예측된 각 주제의 2D 및 3D 자세에 공간-시간 골격 모델 피팅(space-time skeletal model fitting)을 적용하여 2D와 3D 자세를 더욱 일관되게 조화시키고 시간적 일관성을 강제합니다. 우리의 방법은 각 주제에 대해 전체 골격 자세를 관절 각도로 반환합니다. 이는 여러 사람 장면에서 실시간으로 일관된 골격의 관절 각도 결과를 생성하지 않는 이전 연구들과 명확한 차별점입니다.제안된 시스템은 입력 이미지 크기가 512x320 픽셀일 때 소비자용 하드웨어에서 초당 30 프레임 이상의 속도로 실행되며, 최신 기술 수준의 정확성을 달성합니다. 우리는 다양한 어려운 실제 환경에서 이를 입증할 것입니다.