
초록
우리는 공간과 시간에 대한 자기 주의(self-attention)에만 기반하여 영상 분류를 수행하는 복합형(convolution-free) 접근법을 제안한다. 본 연구에서 제안하는 방법은 'TimeSformer'로, 프레임 단위의 패치 시퀀스로부터 직접 공간시적 특징 학습이 가능하도록 표준 Transformer 아키텍처를 영상에 적응시킨 것이다. 실험적 연구를 통해 다양한 자기 주의 구조를 비교한 결과, 각 블록 내에서 시간적 주의와 공간적 주의를 별도로 적용하는 '분할 주의(divided attention)' 방식이 고려된 설계 중에서 가장 높은 영상 분류 정확도를 달성함을 보였다. 근본적으로 새로운 설계임에도 불구하고, TimeSformer는 Kinetics-400 및 Kinetics-600을 포함한 여러 행동 인식 벤치마크에서 최신 기술(SOTA) 수준의 성능을 달성하였으며, 특히 Kinetics-400과 Kinetics-600에서 보고된 최고의 정확도를 기록하였다. 또한 3D 합성곱 신경망과 비교했을 때, 본 모델은 훈련 속도가 빠르며, 정확도의 소폭 감소를 감수함으로써 테스트 효율성이 극적으로 향상되며, 1분 이상의 긴 영상 클립에도 적용 가능한 장점이 있다. 코드와 모델은 다음 링크에서 확인할 수 있다: https://github.com/facebookresearch/TimeSformer.