
초록
최근 연구들은 3D CNN을 활용한 동영상 행동 인식에서의 성공 사례를 보여주고 있다. 그러나 대부분의 3D 모델은 RGB 및 광학 흐름 스트림에 기반하여 구축되어 있으며, 이는 인간 행동을 모델링하는 데 중요한 정보인 자세의 운동(dynamic)을 충분히 활용하지 못할 수 있다. 이러한 격차를 메우기 위해, 우리는 통합적인 3D 프레임워크 내에서 다중 자세 모달리티를 효과적으로 인코딩할 수 있는 간결한 Pose-Action 3D 머신(PA3D)을 제안한다. 이를 통해 행동 인식을 위한 공간-시간적 자세 표현을 학습할 수 있다. 구체적으로, 프레임 간 공간적 자세를 집계하는 새로운 시간적 자세 컨볼루션(temporal pose convolution)을 도입한다. 기존의 시간적 컨볼루션과 달리, 본 연구의 연산은 인간 행동을 인식하는 데 구분력 있는 자세 운동을 명시적으로 학습할 수 있다. JHMDB, HMDB, Charades와 같은 세 가지 대표적인 벤치마크에서 실시한 광범위한 실험 결과, PA3D는 최근의 자세 기반 접근법보다 우수한 성능을 보였다. 더불어 PA3D는 최근의 3D CNN 모델(예: I3D)과 매우 보완적인 관계를 가지며, 다중 스트림 융합을 통해 평가된 모든 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성하였다.