17일 전

비디오 트랜스포머 네트워크

Daniel Neimark, Omri Bar, Maya Zohar, Dotan Asselmann
비디오 트랜스포머 네트워크
초록

이 논문은 비디오 인식을 위한 트랜스포머 기반 프레임워크인 VTN을 제안한다. 최근 비전 트랜스포머의 발전에 영감을 받아, 기존 비디오 행동 인식에서 널리 사용되던 3D 컨볼루션 신경망(3D ConvNets)의 전통적인 접근 방식을 버리고, 전체 비디오 시퀀스 정보에 주목함으로써 행동을 분류하는 새로운 방법을 제시한다. 제안하는 방법은 일반화된 구조를 가지며, 임의의 2D 공간 네트워크를 기반으로 구축할 수 있다. 벽 시간 기준으로, 다른 최첨단 기법들과 비교해 학습 시 16.1배 빠르고 추론 시 5.1배 빠르게 동작하면서도 경쟁력 있는 정확도를 유지한다. 단일 엔드투엔드 패스를 통해 전체 비디오 분석이 가능하며, 연산량은 1.5배 적은 GFLOPs만을 요구한다. Kinetics-400 데이터셋에서 경쟁력 있는 성능을 보이고, VTN의 특성에 대한 아블레이션 스터디 및 정확도와 추론 속도 간의 트레이드오프를 제시한다. 본 연구가 비디오 인식 분야에서 새로운 베이스라인으로 자리매김하고, 새로운 연구 방향을 열기를 기대한다. 코드 및 모델은 다음 링크에서 확인할 수 있다: https://github.com/bomri/SlowFast/blob/master/projects/vtn/README.md

비디오 트랜스포머 네트워크 | 최신 연구 논문 | HyperAI초신경