17일 전
볼을 눈에 담고 있는 것: 비디오 트랜스포머에서의 궤적 어텐션
Mandela Patrick, Dylan Campbell, Yuki M. Asano, Ishan Misra, Florian Metze, Christoph Feichtenhofer, Andrea Vedaldi, João F. Henriques

초록
비디오 트랜스포머에서 시간 차원은 종종 두 공간 차원과 동일한 방식으로 처리된다. 그러나 객체나 카메라가 움직일 수 있는 장면에서는 프레임 $t$에서 한 위치에 이미지화된 물리적 점이 프레임 $t+k$에서 해당 위치에 있는 것과 전혀 관련이 없을 수 있다. 이러한 시간적 대응 관계를 모델링하는 것이 동적 장면에 대한 학습을 촉진하는 데 중요하다. 이를 위해 우리는 비디오 트랜스포머에 즉시 적용 가능한 새로운 블록인 '트랙토리 어텐션(trajectory attention)'을 제안한다. 이는 암묵적으로 결정된 운동 경로를 따라 정보를 집계한다. 또한 입력 크기에 따라 계산 및 메모리 사용이 제곱적으로 증가하는 문제를 해결하기 위한 새로운 방법을 제안한다. 이는 특히 고해상도 또는 긴 영상 처리에 있어 매우 중요한 문제이다. 이러한 아이디어는 다양한 환경에서 유용하지만, 본 연구에서는 트랜스포머 기반 모델을 활용하여 비디오 동작 인식이라는 구체적인 작업에 적용하였으며, Kinetics, Something-Something V2, Epic-Kitchens 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성하였다. 코드 및 모델은 다음에서 제공된다: https://github.com/facebookresearch/Motionformer