
기존의 비디오 3D 인간 자세 추정에 대한 딥 러닝 접근 방식은 순환 신경망(RNN) 또는 합성곱 신경망(CNN)을 기반으로 합니다. 그러나 RNN 기반 프레임워크는 시퀀스 모델이 나쁜 프레임에 민감하고 긴 시퀀스에서 흐름이 이탈하기 쉽기 때문에 제한된 프레임 수의 시퀀스만 처리할 수 있습니다. 기존의 CNN 기반 시간적 프레임워크는 시퀀스 내 모든 입력 프레임을 동시에 처리하여 민감성과 흐름 이탈 문제를 해결하려고 하지만, 최신 CNN 기반 프레임워크는 순차적인 입력에서 단일 프레임의 3D 자세 추정에만 제한됩니다. 본 논문에서는 행렬 분해를 활용한 순차적인 3D 인간 자세 추정을 위한 딥 러닝 기반 프레임워크를 제안합니다. 우리의 접근 방식은 모든 입력 프레임을 동시에 처리하여 민감성과 흐름 이탈 문제를 피하면서도, 입력 시퀀스의 모든 프레임에 대한 3D 자세 추정 값을 출력합니다. 더욱 구체적으로, 모든 프레임의 3D 자세는 궤도 기저 행렬과 궤도 계수 행렬로 분해된 운동 행렬로 표현됩니다. 궤도 기저 행렬은 특이값 분해(Singular Value Decomposition, SVD)나 이산 코사인 변환(Discrete Cosine Transform, DCT) 등의 행렬 분해 방법을 통해 사전 계산되며, 순차적인 3D 자세 추정 문제는 깊은 네트워크를 사용하여 궤도 계수 행렬을 회귀하는 것으로 축소됩니다. 우리는 여러 벤치마크 데이터셋에서 최상의 성능을 달성함으로써 우리 프레임워크의 효과성을 긴 시퀀스에서 입증하였습니다. 소스 코드는 다음 주소에서 이용 가능합니다: https://github.com/jiahaoLjh/trajectory-pose-3d.