18일 전
비드트: 컨볼루션 없이 사용하는 비디오 트랜스포머
Yanyi Zhang, Xinyu Li, Chunhui Liu, Bing Shuai, Yi Zhu, Biagio Brattoli, Hao Chen, Ivan Marsic, Joseph Tighe

초록
우리는 비디오 분류를 위한 분리형 주의( separable-attention)를 갖춘 비디오 트랜스포머(VidTr)를 제안한다. 일반적으로 사용되는 3D 네트워크와 비교하여, VidTr는 계층적 주의 메커니즘을 통해 공간-시간 정보를 효율적으로 통합할 수 있으며, 더 높은 성능과 함께 더 높은 계산 효율성을 제공한다. 먼저, 원시 픽셀에서 공간-시간 모델링을 수행할 수 있는 베이스라인 비디오 트랜스포머를 제안하고, 이 모듈이 높은 메모리 사용량을 동반한다는 점을 보여준다. 이후 메모리 비용을 3.3배 감소시키면서도 동일한 성능을 유지하는 VidTr를 제안한다. 모델 최적화를 추가로 위해, 시간 차원에서 정보가 없는 특징을 제거함으로써 계산량을 줄이는 표준편차 기반의 topK 풀링($pool_{topK_std}$)을 제안한다. VidTr는 다섯 가지 일반적으로 사용되는 데이터셋에서 최신 기준(SOTA) 성능을 달성하면서도 낮은 계산 요구량을 갖추어, 본 연구의 설계가 효율성과 효과성 측면에서 모두 우수함을 입증한다. 마지막으로 오류 분석 및 시각화 결과를 통해, VidTr가 장기적인 시간적 추론이 필요한 동작을 예측하는 데 특히 우수함을 확인할 수 있다.