9일 전

시공간 네트워크를 이용한 3D 인간 자세 추정: 명시적 가림 처리 훈련을 통한 접근

Yu Cheng, Bo Yang, Bo Wang, Robby T. Tan
시공간 네트워크를 이용한 3D 인간 자세 추정: 명시적 가림 처리 훈련을 통한 접근
초록

단일 카메라 영상에서 3차원 자세를 추정하는 것은 최근 몇 년간 큰 진전이 있었음에도 불구하고 여전히 도전적인 과제이다. 기존의 대부분의 방법은 대상 인물이 너무 작거나 크거나, 움직임이 훈련 데이터의 스케일과 속도에 비해 너무 빠르거나 느릴 경우 성능이 급격히 저하된다. 게다가, 우리가 알고 있는 바에 따르면, 이러한 많은 방법들은 심각한 가림현상(occlusion) 상황을 고려하여 설계되거나 훈련되지 않았기 때문에, 가림현상을 다루는 데 있어 성능이 제한된다. 이러한 문제를 해결하기 위해, 우리는 강건한 3차원 인간 자세 추정을 위한 공간-시간 네트워크를 제안한다. 영상 내 인물은 다양한 스케일과 다양한 움직임 속도를 가질 수 있으므로, 각 프레임 내에서 2차원 관절 또는 키포인트를 예측하기 위해 다중 스케일 공간 특징을 적용하고, 3차원 관절 또는 키포인트를 추정하기 위해 다중 스트라이드 시간 컨볼루션 네트워크(TCN)를 활용한다. 더불어, 신체 구조와 사지 운동을 기반으로 한 공간-시간 판별자(spatio-temporal discriminator)를 설계하여 예측된 자세가 유효한 자세인지, 그리고 유효한 움직임인지 평가한다. 훈련 과정에서는 다양한 가림현상 상황(경미한 것부터 심각한 것까지)을 시뮬레이션하기 위해 일부 키포인트를 명시적으로 마스킹한다. 이를 통해 네트워크는 다양한 수준의 가림현상에 대해 더 잘 학습하고 강건성을 갖출 수 있다. 3차원 지표 데이터가 제한적이므로, 추가적으로 2차원 영상 데이터를 활용하여 반감독 학습(semi-supervised learning) 능력을 네트워크에 도입한다. 공개 데이터셋에서의 실험 결과는 제안한 방법의 효과성을 입증하며, 제안된 아블레이션 연구는 네트워크 내 각 하위 모듈의 강점을 보여준다.