13일 전

영상 내 3D 자세 추정을 위한 동적 인간 관절 유사도 학습

Junhao Zhang, Yali Wang, Zhipeng Zhou, Tianyu Luan, Zhe Wang, Yu Qiao
영상 내 3D 자세 추정을 위한 동적 인간 관절 유사도 학습
초록

그래프 컨볼루션 네트워크(GCN)는 영상 내 3차원 인간 자세 추정에 성공적으로 활용되어 왔다. 그러나 기존의 GCN는 인간 뼈대에 기반한 고정된 인체 관절 간 유사성(affinity)을 전제로 구축되기 때문에, 영상 내 복잡한 시공간적 자세 변동을 다루는 데 있어 적응 능력이 제한될 수 있다. 이러한 문제를 완화하기 위해, 우리는 영상 내에서 인체 관절 간 유사성을 동적으로 탐지하고, 영상에서 공간적/시간적 관절 관계를 적응적으로 학습함으로써 3차원 자세를 추정할 수 있는 새로운 동적 그래프 네트워크(DG-Net)를 제안한다. 기존의 전통적 그래프 컨볼루션과 달리, 우리는 각 영상 예제에 대해 관절 간 공간적 거리 또는 시간적 움직임 유사성에 기반하여 공간적/시간적 인체 관절 유사성을 탐지할 수 있는 동적 공간/시간 그래프 컨볼루션(DSG/DTG)을 도입한다. 이를 통해 2차원 자세를 3차원으로 복원할 때 깊이 모호성과 운동 불확실성을 줄이기 위해 어떤 관절이 공간적으로 가까운지, 혹은 움직임이 일관적인지를 효과적으로 이해할 수 있다. 제안된 DG-Net은 Human3.6M, HumanEva-I, MPI-INF-3DHP 등 세 가지 대표적인 벤치마크에서 광범위한 실험을 수행하였으며, 더 적은 입력 프레임 수와 더 작은 모델 크기로도 최근의 여러 최고 성능(SOTA) 방법들을 능가하는 성능을 보였다.