한 달 전
Thin-Slicing Network: 동영상에서 자세 추정을 위한 깊은 구조적 모델
Jie Song; Limin Wang; Luc Van Gool; Otmar Hilliges

초록
심층 합성곱 신경망(Deep ConvNets)은 단일 이미지에서 인간 자세 추정 작업에 효과적임이 입증되었습니다. 그러나 비디오 기반의 경우에서는 자기 가림(self-occlusion), 모션 블러(motion blur), 그리고 훈련 데이터 세트에 거의 또는 전혀 예시가 없는 비일반적인 자세(uncommon poses)와 같은 여러 어려운 문제가 발생합니다. 시간 정보는 신체 관절의 위치에 대한 추가적인 단서를 제공하고 이러한 문제들을 완화하는 데 도움을 줄 수 있습니다. 본 논문에서는 제약 조건이 없는 비디오에서 인간 자세 시퀀스를 추정하기 위한 심층 구조화 모델을 제안합니다. 이 모델은 효율적으로 엔드투엔드 방식으로 훈련될 수 있으며, 동시에 신체 관절의 외관과 그들의 공간-시간 관계를 표현할 수 있는 능력을 갖추고 있습니다. 인간 신체에 대한 영역 지식은 명시적으로 네트워크에 통합되어 골격 구조를 규제하고 시간 일관성을 강제하는 효과적인 사전 확률(priors)을 제공합니다. 제안된 엔드투엔드 아키텍처는 비디오 기반 자세 추정을 위한 두 가지 널리 사용되는 벤치마크(Penn Action 데이터셋과 JHMDB 데이터셋)에서 평가되었습니다. 우리의 접근법은 기존 최신 방법들(state-of-the-art methods)보다 상당히 우수한 성능을 보였습니다.