MAR: 효율적인 동작 인식을 위한 마스킹된 오토인코더

비디오 인식을 위한 전통적인 접근 방식은 일반적으로 전체 입력 비디오를 처리하므로, 비디오 내에 널리 존재하는 시공간적 중복성 때문에 효율성이 낮다. 최근의 마스킹된 비디오 모델링 기술, 예를 들어 VideoMAE의 발전은, 일반적인 비전 트랜스포머(Vision Transformer, ViT)가 제한된 시각적 콘텐츠만 제공되더라도 시공간적 맥락을 보완할 수 있음을 보여주었다. 이러한 사례에 영감을 받아, 우리는 마스킹된 액션 인식(Masked Action Recognition, MAR)을 제안한다. MAR은 일부 패치를 제거하고 비디오의 일부만을 처리함으로써 불필요한 계산을 줄이는 방식이다. MAR은 다음과 같은 두 가지 필수적인 구성 요소로 구성된다: 셀 기반 러닝 마스킹(cell running masking)과 브리징 분류기(bridging classifier). 구체적으로, ViT가 보이지 않는 패치들 너머의 세부 정보를 쉽게 인지할 수 있도록 하기 위해, 셀 기반 러닝 마스킹 기법을 도입하여 비디오 내 시공간적 상관관계를 유지한다. 이는 동일한 공간 위치에 있는 패치들이 차례로 관측되도록 하여 재구성 과정을 용이하게 한다. 또한, 부분적으로 관측된 특징들이 의미적으로 명확한 보이지 않는 패치들을 재구성할 수는 있지만, 정확한 분류 성능을 달성하지 못한다는 점을 발견하였다. 이를 해결하기 위해, 재구성용 ViT 인코딩 특징과 분류 전용 특징 사이의 의미적 격차를 메우는 브리징 분류기를 제안한다. 제안된 MAR은 ViT의 계산 비용을 53% 감소시키며, 광범위한 실험 결과에서 기존 ViT 모델들보다 뚜렷한 성능 우위를 지속적으로 보였다. 특히, MAR로 훈련된 ViT-Large 모델이 표준 훈련 방식으로 훈련된 ViT-Huge 모델보다 Kinetics-400 및 Something-Something v2 데이터셋에서 뚜렷한 성능 차이를 보였으며, ViT-Large의 계산 부하량은 ViT-Huge의 단지 14.5%에 불과하다.