BEVT: 비디오 트랜스포머의 BERT 사전 학습

본 논문은 비디오 트랜스포머의 BERT 사전 학습에 대해 연구한다. 최근 이미지 트랜스포머의 BERT 사전 학습에서 나타난 성공 사례를 고려할 때, 이는 단순하지만 연구 가치가 높은 확장이다. 우리는 BEVT(Behavioral-Enhanced Video Transformer)를 제안하며, 비디오 표현 학습을 공간적 표현 학습과 시간적 동역학 학습으로 분리한다. 구체적으로 BEVT는 이미지 데이터에 대해 마스킹 이미지 모델링(Masked Image Modeling)을 먼저 수행한 후, 비디오 데이터에 대해 마스킹 이미지 모델링과 마스킹 비디오 모델링을 동시에 수행한다. 이 설계는 두 가지 관찰에 기반한다: 1) 이미지 데이터셋에서 학습된 트랜스포머는 비디오 트랜스포머의 학습을 용이하게 하는 충분한 공간적 사전 지식을 제공하며, 이는 특히 초기부터 학습하는 경우 계산 비용이 매우 높은 경우가 많기 때문이다; 2) 정확한 예측을 위해 필요한 구분 정보, 즉 공간적 정보와 시간적 정보는 클래스 내 및 클래스 간 변동성이 크기 때문에 서로 다른 비디오 간에 다를 수 있다. 우리는 세 가지 도전적인 비디오 벤치마크에서 광범위한 실험을 수행하였으며, BEVT는 매우 유망한 성능을 달성하였다. Kinetics 400에서는 인식이 주로 구분 가능한 공간적 표현에 의존하므로, BEVT는 강력한 지도 학습 기반 모델들과 비교해 유사한 성능을 기록하였다. 반면 Something-Something-V2와 Diving 48은 시간적 동역학에 의존하는 비디오를 포함하고 있으며, BEVT는 모든 대안적 기반 모델들을 명확한 차이로 능가하며, 각각 71.4% 및 87.2%의 Top-1 정확도를 기록하여 최고 성능을 달성하였다. 코드는 \url{https://github.com/xyzforever/BEVT}에서 공개될 예정이다.