시공간 자기주의 모델링과 시간 패치 이동을 통한 동작 인식

최근 Transformer 기반의 방법은 2차원 이미지 기반의 시각 작업에서 큰 성과를 거두었다. 그러나 액션 인식과 같은 3차원 영상 기반 작업에서는, 영상 데이터에 공간시계열 Transformer를 직접 적용할 경우 패치 수가 크게 증가하고 자기 주목(self-attention) 계산의 2차 복잡도로 인해 계산 및 메모리 부담이 크게 증가한다. 따라서 영상 데이터의 3차원 자기 주목을 효율적이고 효과적으로 모델링하는 것은 Transformer 기술에 있어 큰 도전 과제였다. 본 논문에서는 영상 기반 액션 인식을 위한 Transformer에서 3차원 자기 주목을 효율적으로 모델링하기 위해 시간 차원에서 특정 모자이크 패턴으로 일부 패치를 이동시키는 Temporal Patch Shift(TPS) 기법을 제안한다. TPS는 기존의 공간 자기 주목 연산을 거의 추가 비용 없이 공간시계열 자기 주목 연산으로 전환할 수 있다. 그 결과, 3차원 자기 주목을 2차원 자기 주목과 거의 동일한 계산 및 메모리 비용으로 수행할 수 있다. TPS는 플러그 앤 플레이(Plug-and-Play) 모듈로, 기존의 2차원 Transformer 모델에 간단히 삽입하여 공간시계열 특징 학습을 강화할 수 있다. 제안된 방법은 Something-Something V1 & V2, Diving-48, Kinetics400 등에서 최신 기술들과 경쟁 가능한 성능을 달성하면서도 계산 및 메모리 비용 측면에서 훨씬 더 효율적이다. TPS의 소스 코드는 https://github.com/MartinXM/TPS 에서 확인할 수 있다.