
초록
비디오 스트림에서의 행동과 제스처를 이해하기 위해서는 다양한 시간 순간에서의 공간적 콘텐츠에 대한 시간적 추론, 즉 공간-시간(ST) 모델링이 필요하다. 본 조사 논문에서는 행동 및 제스처 인식 작업을 위한 다양한 ST 모델링 기법들을 비교 분석하였다. 기존에 정적 이미지의 특징 추출 도구로 효과적임이 입증된 합성곱 신경망(CNN)을 활용하여, 서로 다른 시간 순간에서 추출된 정적 이미지의 특징에 대해 ST 모델링 기법을 적용하였다. 모든 기법은 CNN 기반 특징 추출 모듈과 함께 엔드 투 엔드로 학습되며, 두 가지 공개된 벤치마크 데이터셋인 Jester 및 Something-Something에서 평가되었다. Jester 데이터셋은 다양한 동적 및 정적 손 제스처를 포함하고 있으며, Something-Something 데이터셋은 인간-객체 상호작용 행동을 포함한다. 이 두 벤치마크의 공통된 특성은, 행동/제스처를 정확히 분류하기 위해 설계된 아키텍처가 영상의 전체 시간적 정보를 포착해야 한다는 점이다. 예상과는 달리, 실험 결과는 RNN 기반의 ST 모델링 기법이 완전 합성곱 아키텍처와 같은 다른 기법들에 비해 낮은 성능을 보였음을 나타냈다. 본 연구의 코드 및 사전 학습된 모델은 공개적으로 제공된다.