2달 전
ActionVLAD: 동작 분류를 위한 시공간 집계 학습
Girdhar, Rohit ; Ramanan, Deva ; Gupta, Abhinav ; Sivic, Josef ; Russell, Bryan

초록
본 연구에서는 동작 분류를 위한 새로운 비디오 표현을 소개합니다. 이 표현은 비디오의 전체 시공간 범위에 걸쳐 로컬 컨볼루션 특징들을 집계하는 방법을 제시합니다. 이를 위해 최신의 두 스트림 네트워크와 학습 가능한 시공간 특징 집계를 통합하였습니다. 결과적으로 생성된 아키텍처는 전체 비디오 분류를 위해 엔드투엔드로 훈련될 수 있습니다.우리는 시공간에 대한 풀링(pooling) 전략과 서로 다른 스트림에서 신호를 결합하는 방법을 다양한 방식으로 조사하였습니다. 그 결과 다음과 같은 점들을 발견하였습니다: (i) 시공간에 대해 공동으로 풀링하는 것이 중요하지만, (ii) 외관과 움직임 스트림은 각각 별도의 표현으로 집계되는 것이 가장 좋습니다.마지막으로, 본 연구에서 제안한 표현이 두 스트림 기반 아키텍처보다 크게 우수한 성능(상대적으로 13% 개선)을 보였으며, HMDB51, UCF101, 그리고 Charades 비디오 분류 벤치마크에서 유사한 기반 아키텍처를 가진 다른 기준 모델들보다도 더 뛰어난 성능을 나타냈습니다.