2달 전
모션 특징 네트워크: 행동 인식을 위한 고정 모션 필터
Myunggi Lee; Seungeui Lee; Sungjoon Son; Gyutae Park; Nojun Kwak

초록
프레임 시퀀스에서 공간-시간 표현은 행동 인식 작업에서 중요한 역할을 합니다. 과거에는 시간 정보로 광학 흐름을 사용하여 공간 정보를 포함하는 RGB 이미지 집합과 결합하는 방법이 행동 인식 작업에서 성능 향상에 큰 효과를 보였습니다. 그러나 이 방법은 높은 계산 비용이 들고, 두 개의 스트림(RGB와 광학 흐름) 프레임워크가 필요합니다. 본 논문에서는 MFNet(모션 피처 네트워크)를 제안합니다. 이 네트워크는 모션 블록을 포함하여, 인접한 프레임 간의 공간-시간 정보를 통합된 네트워크에서 엔드투엔드로 학습할 수 있게 합니다. 모션 블록은 기존의 CNN 기반 행동 인식 프레임워크에 소량의 추가 비용만으로 연결될 수 있습니다. 우리는 제스터(Jester)와 소메싱-소메싱(Something-Something) 두 가지 행동 인식 데이터셋에서 우리의 네트워크를 평가하였으며, 네트워크를 처음부터 학습함으로써 두 데이터셋 모두에서 경쟁력 있는 성능을 달성하였습니다.