비디오 모델에서의 독립형 프레임 간 어텐션

비디오의 고유성으로서의 움직임은 비디오 이해 모델의 발전에 있어 핵심적인 요소였다. 현대의 딥러닝 모델들은 공간-시간 3D 컨볼루션을 수행하거나, 3D 컨볼루션을 공간적 및 시간적 컨볼루션으로 분해함으로써 움직임을 활용하거나, 시간 차원을 따라 자체 주의(self-attention)를 계산함으로써 움직임을 모델링한다. 이러한 성공의 배경에는 연속 프레임 간의 특징 맵(feature maps)이 잘 집계될 수 있다는 암묵적인 가정이 있다. 그러나 이러한 가정은 특히 큰 변형이 발생하는 영역에서는 항상 성립하지 않을 수 있다. 본 논문에서는 프레임 간 변형을 새롭게 탐구하여 각 공간 위치에서 국소적인 자체 주의를 추정하는 새로운 프레임 간 주의 블록, 즉 독립형 프레임 간 주의(Stand-alone Inter-Frame Attention, SIFA)를 제안한다. 기술적으로 SIFA는 두 프레임 간의 차이에 의해 오프셋 예측값을 재조정함으로써 변형 가능 디자인(deformable design)을 재구성한다. 현재 프레임의 각 공간 위치를 쿼리(query)로 삼고, 다음 프레임의 국소적으로 변형 가능한 이웃들을 키(key)/값(value)으로 간주한다. 이후 SIFA는 쿼리와 키 사이의 유사도를 독립적인 주의(stand-alone attention)로 측정하여 값을 가중 평균함으로써 시간 방향의 집계를 수행한다. 또한 SIFA 블록을 ConvNet과 비전 트랜스포머(Vision Transformer)에 각각 통합하여 SIFA-Net과 SIFA-Transformer를 설계하였다. 네 개의 비디오 데이터셋에서 수행된 광범위한 실험 결과는 SIFA-Net과 SIFA-Transformer가 더 강력한 백본(backbone)임을 입증하였다. 특히 놀랍게도 SIFA-Transformer는 Kinetics-400 데이터셋에서 83.1%의 정확도를 달성하였다. 소스 코드는 \url{https://github.com/FuchenUSTC/SIFA}에서 제공된다.