17일 전

비디오-포컬넷: 비디오 동작 인식을 위한 공간시적 포컬 조절

Syed Talal Wasim, Muhammad Uzair Khattak, Muzammal Naseer, Salman Khan, Mubarak Shah, Fahad Shahbaz Khan
비디오-포컬넷: 비디오 동작 인식을 위한 공간시적 포컬 조절
초록

최근의 비디오 인식 모델들은 장거리 시공간적 맥락을 모델링하기 위해 Transformer 기반 모델을 활용하고 있다. 비디오 Transformer 설계는 전역 맥락을 모델링할 수 있는 자기 주의(Self-attention)에 기반하지만, 높은 계산 비용을 수반한다. 반면, 컨볼루션 기반 설계는 효율적인 대안을 제공하지만 장거리 의존성 모델링에는 한계가 있다. 두 설계의 장점을 결합하기 위해 본 연구는 국소적 및 전역적 맥락을 동시에 모델링할 수 있는 효과적이고 효율적인 비디오 인식 아키텍처인 Video-FocalNet을 제안한다. Video-FocalNet은 시공간적 포칼 조절(Focal Modulation) 아키텍처를 기반으로 하며, 자기 주의의 상호작용 및 집계 단계를 역순으로 재구성함으로써 계산 효율성을 향상시킨다. 또한, 집계 단계와 상호작용 단계 모두 효율적인 컨볼루션과 원소별 곱셈 연산을 사용하여, 비디오 표현에 대해 자기 주의 대비 계산 비용이 낮은 구조를 구현한다. 본 연구는 포칼 조절 기반의 시공간 맥락 모델링 설계 공간을 광범위하게 탐색하였으며, 병렬적인 공간적 및 시간적 인코딩 설계가 최적의 선택임을 입증하였다. Video-FocalNet은 Kinetics-400, Kinetics-600, SS-v2, Diving-48, ActivityNet-1.3 등 5개의 대규모 데이터셋에서 최신의 Transformer 기반 모델들과 비교하여 뛰어난 성능을 보이며, 더 낮은 계산 비용으로도 우수한 결과를 달성하였다. 본 연구의 코드 및 모델은 https://github.com/TalalWasim/Video-FocalNets 에 공개되어 있다.