2달 전
FASTER 반복 신경망을 이용한 효율적인 비디오 분류
Linchao Zhu; Laura Sevilla-Lara; Du Tran; Matt Feiszli; Yi Yang; Heng Wang

초록
일반적인 비디오 분류 방법은 종종 비디오를 짧은 클립으로 나누고, 각 클립을 독립적으로 추론한 후, 클립 단위의 예측 결과를 모아 비디오 단위의 결과를 생성합니다. 그러나 시각적으로 유사한 클립들을 독립적으로 처리하는 것은 비디오 시퀀스의 시간적 구조를 무시하고 추론 시의 계산 비용을 증가시키는 문제점이 있습니다. 본 논문에서는 이러한 문제점을 해결하기 위해 새로운 프레임워크인 FASTER(Feature Aggregation for Spatio-TEmporal Redundancy)를 제안합니다. FASTER는 인접한 클립들 사이의 중복성을 활용하여 다양한 복잡도의 모델에서 얻은 예측 결과를 학습하여 집계함으로써 계산 비용을 줄이는 것을 목표로 합니다. FASTER 프레임워크는 고가의 모델에서 얻은 고품질 표현을 통합하여 미묘한 움직임 정보를 포착하고, 저렴한 모델에서 얻은 경량화된 표현을 사용하여 비디오 내 장면 변화를 포괄할 수 있습니다. 이를 위해 새로운 순환 신경망인 FAST-GRU가 설계되었습니다. 기존 접근법과 비교할 때, FASTER는 Kinetics, UCF-101 및 HMDB-51와 같은 인기 있는 데이터셋에서 최신 정확도를 유지하면서 FLOPs(Floating Point Operations Per Second)를 10배 이상 줄일 수 있습니다.