17일 전

ViViT: 비디오 비전 트랜스포머

Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lučić, Cordelia Schmid
ViViT: 비디오 비전 트랜스포머
초록

우리는 최근 이미지 분류 분야에서 성공을 거둔 순수 트랜스포머 기반 모델을 영상 분류에 적용한 모델을 제안한다. 제안하는 모델은 입력 영상에서 시공간 토큰을 추출한 후, 이를 일련의 트랜스포머 레이어로 인코딩한다. 영상 처리 시 발생하는 긴 토큰 시퀀스를 효율적으로 처리하기 위해, 입력 데이터의 공간적 및 시간적 차원을 분해하는 여러 효율적인 모델 변형을 제안한다. 트랜스포머 기반 모델은 대규모 학습 데이터셋이 존재할 때에만 효과적이라는 점이 알려져 있으나, 본 연구에서는 학습 과정에서 모델을 효과적으로 정규화하고, 사전 학습된 이미지 모델을 활용함으로써 비교적 소규모 데이터셋에서도 성공적으로 학습할 수 있음을 보여준다. 광범위한 아블레이션 연구를 수행한 결과, Kinetics 400 및 600, Epic Kitchens, Something-Something v2, Moments in Time 등 다양한 영상 분류 벤치마크에서 최신 기술 수준(SOTA)의 성능을 달성하였으며, 기존의 깊은 3D 컨볼루션 네트워크 기반 방법들을 모두 상회한다. 추가적인 연구를 촉진하기 위해 코드를 https://github.com/google-research/scenic/tree/main/scenic/projects/vivit 에 공개한다.

ViViT: 비디오 비전 트랜스포머 | 최신 연구 논문 | HyperAI초신경