9일 전

예측형 비디오 트랜스포머

Rohit Girdhar, Kristen Grauman
예측형 비디오 트랜스포머
초록

우리는 미래의 행동을 예측하기 위해 이전에 관측된 영상을 주목하는 주의 기반(end-to-end attention-based) 영상 모델링 아키텍처인 예측형 영상 트랜스포머(An anticipative Video Transformer, AVT)를 제안한다. 본 모델은 영상 시퀀스에서 다음 행동을 예측하는 동시에, 후속 미래 프레임의 특징을 예측할 수 있는 프레임 특징 인코더를 함께 학습하도록 설계되었다. 기존의 시간적 통합 전략들과 비교했을 때, AVT는 관측된 행동의 순차적 진행을 유지하면서도 장거리 의존성(long-range dependencies)을 효과적으로 포착할 수 있다는 장점을 지닌다. 이러한 특성은 예측 작업에 있어 매우 중요하다. 광범위한 실험을 통해 AVT가 널리 사용되는 네 가지 주요 행동 예측 벤치마크(EpicKitchens-55, EpicKitchens-100, EGTEA Gaze+, 50-Salads)에서 보고된 최고 성능을 달성하였으며, 특히 EpicKitchens-100 CVPR'21 챌린지에서 1위를 차지했다.