단일 카메라 비디오에서 3D 다중 인물 자세 추정을 위한 그래프 및 시계열 합성곱 네트워크

최근의 발전에도 불구하고, 단일 카메라 비디오에서 다중 인물의 3D 자세 추정은 가림, 부분적으로 화면 밖에 있는 대상 인물, 그리고 부정확한 인물 검출로 인해 정보가 누락되는 일반적인 문제 때문에 여전히 어려운 과제입니다. 이 문제를 해결하기 위해, 우리는 카메라 중심의 다중 인물 3D 자세를 추정하는 새로운 프레임워크를 제안합니다. 이 프레임워크는 그래프 컨볼루션 네트워크(GCNs)와 시간적 컨볼루션 네트워크(TCNs)를 통합하여 카메라 파라미터가 필요하지 않은 강건한 3D 자세 추정을 수행합니다.특히, 기존의 GCN과 달리 방향성 그래프를 기반으로 하는 인간 관절 GCN을 소개합니다. 이 GCN은 2D 자세 추정기의 신뢰도 점수를 활용하여 자세 추정 결과를 개선합니다. 또한, 뼈 연결을 모델링하고 인간 관절 이상의 정보를 제공하는 인간 뼈 GCN을 소개합니다. 두 가지 GCN은 서로 협력하여 공간적 프레임별 3D 자세를 추정하며, 대상 프레임에서 보이는 관절과 뼈 정보를 사용하여 가려진 또는 누락된 인간 부분 정보를 추정할 수 있습니다.3D 자세 추정을 더욱 정교하게 하기 위해, 우리는 시간적 컨볼루션 네트워크(TCNs)를 사용하여 시간적 제약 조건과 인간 동역학 제약 조건을 강화합니다. 관절 TCN을 사용하여 프레임 간의 개인 중심 3D 자세를 추정하고, 속도 TCN(velocity-TCN)을 제안하여 연속적인 프레임에서 3D 관절의 속도를 추정하여 3D 자세 추정의 일관성을 보장합니다. 마지막으로, 여러 사람의 3D 인간 자세를 추정하기 위해 카메라 중심의 3D 자세를 카메라 파라미터 없이 추정하는 루트 TCN(root-TCN)을 제안합니다.양적 및 질적 평가는 제안된 방법의 효과성을 입증하였습니다.