18일 전

Poselet 키프레임링: 인간 활동 인식을 위한 모델

{Michalis Raptis, Leonid Sigal}
Poselet 키프레임링: 인간 활동 인식을 위한 모델
초록

이 논문에서는 인간의 행동을 인식하기 위한 새로운 모델을 제안한다. 행동은 주체(주체들)의 부분적인 핵심 자세(key-poses)를 구성하는 시간적으로 국소적인 판별력 있는 키프레임들의 매우 희소한 시계열로 모델링된다. 우리는 키프레임을 은닉 변수(latent variable)로 간주하면서, 최대 마진 판별적 프레임워크 내에서 키프레임을 학습한다. 이를 통해 키프레임의 집합을 동시에 학습하면서, 그들 사이의 국소적인 시간적 맥락도 함께 학습할 수 있다. 키프레임은 약한 애너테이션(weak annotations)에서 학습된 HoG(Histogram of Oriented Gradients)와 BoW(Bag of Words) 구성 요소를 포함하는 공간적으로 위치 가능(positional)한 포즈렛( poselet)-유사 표현으로 인코딩된다. 또한, 구조적 서포트 벡터 머신(structured SVM)을 활용하여 구성 요소들을 정렬하고, 어려운 음성 샘플(hard negatives)을 탐지함으로써 정위치화 성능을 향상시킨다. 결과적으로, 본 모델은 공간-시간적 정위치화를 지원하며, 프레임 손실이나 부분적 관측에 대해 높은 내성성을 갖는다. 제안된 모델은 UT-Interaction 데이터셋에서 기존 최고 성능 기법과 경쟁 가능한 분류 성능을 보이며, 실시간 스트리밍 환경에서 기존 방법보다 우수한 성능을 나타냄을 보여준다.