17일 전
더 많은 것이 적은 것보다 낮다: 대소 네트워크와 깊이 있는 시간적 집계를 통한 효율적인 비디오 표현 학습
Quanfu Fan, Chun-Fu Chen, Hilde Kuehne, Marco Pistoia, David Cox

초록
최근 최첨단 비디오 행동 인식 모델은 대부분 비용이 큰 3D ConvNet 기반으로 구성되어 있다. 이로 인해 이러한 아키텍처를 학습하고 평가하기 위해 대규모 GPU 클러스터가 필요하다. 본 연구에서는 자원의 일부만을 사용하여 기존 아키텍처와 동등하거나 더 우수한 성능을 달성할 수 있는 경량화되고 메모리 친화적인 행동 인식 아키텍처를 제안한다. 제안된 아키텍처는 저해상도 프레임에서 작동하는 깊은 하위 네트워크와 고해상도 프레임에서 작동하는 컴팩트한 하위 네트워크의 조합을 기반으로 하여, 효율성과 정확도를 동시에 달성할 수 있다. 실험을 통해 제안한 방법이 기준 모델 대비 연산량(FLOPs)을 약 3~4배, 메모리 사용량을 약 2배 감소시킴을 입증하였다. 이는 동일한 계산 예산 내에서 더 깊은 모델과 더 많은 입력 프레임을 사용하여 학습할 수 있도록 가능하게 한다. 또한 대규모 3D 컨볼루션의 필요성을 완화하기 위해, 매우 낮은 추가 계산 비용으로 비디오의 시간적 의존성을 모델링할 수 있는 시간적 집계 모듈(temporal aggregation module)을 제안하였다. 제안된 모델은 Kinetics, Something-Something, Moments-in-time 등의 여러 행동 인식 벤치마크에서 강력한 성능을 보였다. 코드와 모델은 https://github.com/IBM/bLVNet-TAM 에 공개되어 있다.