17일 전
비디오 트랜스포머를 위한 공간-시간 혼합 어텐션
Adrian Bulat, Juan-Manuel Perez-Rua, Swathikiran Sudhakaran, Brais Martinez, Georgios Tzimiropoulos

초록
이 논문은 트랜스포머를 활용한 영상 인식에 관한 연구이다. 최근의 관련 연구들은 인식 정확도 측면에서 유망한 성과를 보여주었으나, 시공간 정보를 추가적으로 모델링함에 따라 많은 경우에 상당한 계산 부담을 유발한다는 점이 지적되었다. 본 연구에서는 영상 시퀀스의 프레임 수에 비례하여 복잡도가 선형적으로 증가하는 영상 트랜스포머 모델을 제안한다. 이로 인해 이미지 기반 트랜스포머 모델과 비교했을 때 추가적인 계산 부담이 발생하지 않는다. 이를 달성하기 위해, 본 모델은 영상 트랜스포머에서 사용되는 완전한 시공간 어텐션에 대해 두 가지 근사치를 도입한다. (a) 시간 어텐션을 국소적인 시간 윈도우에 제한하고, 트랜스포머의 깊이를 활용하여 영상 시퀀스 전체의 시간적 커버리지를 확보한다. (b) 공간 어텐션 모델에 추가적인 비용 없이 공간과 시간 위치를 동시에 고려하는 효율적인 시공간 혼합 기법을 사용한다. 또한, 전역적인 시간적 어텐션만을 처리하는 두 가지 매우 경량화된 메커니즘을 통합하는 방법을 제시하며, 이는 최소한의 계산 비용으로 추가적인 정확도 향상을 가능하게 한다. 실험 결과, 본 모델은 가장 대표적인 영상 인식 데이터셋에서 매우 높은 인식 정확도를 달성하면서도, 기존 영상 트랜스포머 모델들에 비해 훨씬 더 효율적임을 입증하였다. 코드는 공개될 예정이다.