비디오에서 인간의 몸체 자세 및 형태 추정을 위한 공간-시간 경향 추론

본 논문에서는 영상에서 인간의 자세와 형태를 복원하기 위한 공간-시간 경향 추론(Spatio-Temporal Tendency Reasoning, STR) 네트워크를 제안한다. 기존의 접근 방식은 3차원 인간 데이터셋의 확장과 시간 기반 학습을 통해 정확도 및 시간적 부드러움을 향상시키는 데 초점을 맞추어왔다. 이와 달리, 본 STR은 제약 없는 환경에서 정확하고 자연스러운 운동 시퀀스를 시간적·공간적 경향성을 통해 학습하고, 기존 영상 데이터의 공간-시간 특징을 극대한 활용하는 것을 목표로 한다. 이를 위해 STR은 시간적 및 공간적 차원에서 특징 표현을 별도로 학습하여, 공간-시간 특징 표현의 보다 강건한 형태를 추구한다. 구체적으로, 효율적인 시간 모델링을 위해 먼저 시간적 경향 추론(Temporal Tendency Reasoning, TTR) 모듈을 제안한다. TTR 모듈은 영상 시퀀스 내에서 시간 차원의 계층적 잔차 연결 표현을 구성함으로써 시간 시퀀스의 경향성을 효과적으로 추론하고, 인간 정보의 효과적인 전파를 유지한다. 동시에, 공간 표현을 강화하기 위해 공간적 경향 강화(Spatial Tendency Enhancement, STE) 모듈을 설계하여 인간 운동 정보 표현 내에서 시간-주파수 도메인에 민감한 특징을 더욱 강화하여 학습한다. 마지막으로, 공간-시간 특징 표현을 통합하고 정제하기 위한 통합 전략을 도입한다. 대규모 공개 데이터셋을 대상으로 수행한 광범위한 실험 결과는 STR이 세 가지 데이터셋에서 최첨단 기술과 경쟁력을 유지함을 보여준다. 본 연구의 코드는 https://github.com/Changboyang/STR.git 에서 공개되어 있다.