
본 연구에서는 2D 인간 자세 시퀀스로부터 3D 인간 자세를 추정하는 문제를 다룹니다. 최근 딥 네트워크의 성공으로 인해 많은 최신 3D 자세 추정 방법들이 이미지에서 직접 예측하기 위해 딥 네트워크를 엔드투엔드로 훈련시키고 있지만, 최고 성능을 보이는 접근법들은 3D 자세 추정 작업을 두 단계로 나누는 것이 효과적임을 보여주었습니다: 첫 번째 단계에서는 최신 2D 자세 추정기를 사용하여 이미지에서 2D 자세를 추정하고, 그 다음 단계에서는 이를 3D 공간으로 매핑합니다. 또한 이러한 접근법들은 관절 집합의 2D 위치와 같은 저차원 표현이 충분히 구별되어 높은 정확도로 3D 자세를 추정할 수 있음을 보여주었습니다. 그러나 개별 프레임에 대한 3D 자세 추정은 각 프레임의 독립적인 오류로 인해 시간적으로 일관성이 없는 추정치를 초래하여 진동(jitter)이 발생합니다. 따라서 본 연구에서는 2D 관절 위치 시퀀스에 걸친 시간 정보를 활용하여 3D 자세 시퀀스를 추정하였습니다. 우리는 입력과 출력 사이에 단축 연결(shortcut connections)을 포함한 계층 정규화(layer-normalized) LSTM 유닛으로 구성된 시퀀스-시퀀스 네트워크를 설계하였으며, 훈련 과정에서 시간적 부드러움 제약 조건(temporal smoothness constraint)을 적용하였습니다. 이 결과, 시간적 일관성에 대한 지식이 Human3.6M 데이터셋에서 가장 좋은 기록된 결과보다 약 12.2% 향상되었으며, 2D 자세 검출기가 실패하더라도 이미지 시퀀스 전체에서 시간적으로 일관된 3D 자세를 복원하는 데 도움이 되었습니다.