2달 전

비디오에서 행동 인식을 위한 두 스트림 합성곱 신경망

Karen Simonyan; Andrew Zisserman
비디오에서 행동 인식을 위한 두 스트림 합성곱 신경망
초록

우리는 비디오에서 동작 인식을 위한 차별적으로 훈련된 딥 컨볼루셔널 네트워크(ConvNets)의 아키텍처를 연구합니다. 주요 과제는 정지 프레임에서의 외관 정보와 프레임 간의 움직임 정보를 보완적으로 포착하는 것입니다. 또한, 데이터 기반 학습 프레임워크 내에서 가장 성능이 우수한 수작업 특징들을 일반화하는 것을 목표로 합니다.우리의 기여는 세 가지입니다. 첫째, 공간적과 시간적 네트워크를 통합한 두 스트림 ConvNet 아키텍처를 제안합니다. 둘째, 다중 프레임 밀집 광학 유동(optical flow)에 대해 훈련된 ConvNet이 제한적인 훈련 데이터에도 불구하고 매우 좋은 성능을 달성할 수 있음을 입증합니다. 셋째, 두 개의 다른 동작 분류 데이터셋에 적용된 다중 작업 학습(multi-task learning)이 훈련 데이터의 양을 증가시키고 두 데이터셋 모두에서 성능을 개선할 수 있음을 보여줍니다.우리의 아키텍처는 UCF-101 및 HMDB-51 표준 비디오 동작 벤치마크에서 훈련 및 평가되었습니다. 이는 최신 기술과 경쟁력이 있으며, 이전에 딥 넷을 사용하여 비디오 분류를 시도한 것보다 크게 우수한 성능을 보입니다.