17일 전

상태공간 영상 모델을 이용한 긴 영화 클립 분류

Md Mohaiminul Islam, Gedas Bertasius
상태공간 영상 모델을 이용한 긴 영화 클립 분류
초록

최근 대부분의 비디오 인식 모델은 짧은 비디오 클립(예: 5~10초 길이)에서 작동하도록 설계되어 있다. 따라서 이러한 모델을 장시간 영화 이해와 같은 과제에 적용하는 것은 일반적으로 장기적 시계열 추론이 요구되는 만큼 어려운 과제이다. 최근 도입된 비디오 트랜스포머는 장기적 시계열 자기주의(self-attention)를 활용함으로써 이 문제의 일부를 해결하고 있다. 그러나 자기주의의 이차 비용(Quadratic cost)으로 인해 이러한 모델은 종종 계산 비용이 크고 실용적이지 못하다. 본 연구에서는 자기주의의 장점을 살리면서도 효율적인 장기적 시계열 비디오 모델인 ViS4mer를 제안한다. ViS4mer는 자기주의와 최근에 등장한 구조적 상태공간 시퀀스(S4) 레이어의 장점을 결합한다. 본 모델은 단기적 시공간 특징 추출을 위해 표준 트랜스포머 인코더를 사용하고, 이후 장기적 시계열 추론을 위해 다중 해상도 시계열 S4 디코더를 활용한다. 디코더의 각 레이어에서 시공간 특징 해상도와 채널 차원을 점진적으로 감소시키는 방식으로, ViS4mer는 비디오 내 복잡한 장기적 시공간 종속성을 효과적으로 학습한다. 또한, 순수 자기주의 기반 모델 대비 ViS4mer는 2.63배 빠르고 GPU 메모리 사용량이 8배 적게 소요된다. 더불어, Long Video Understanding(LVU) 벤치마크에서 9개의 장시간 영화 비디오 분류 과제 중 6개에서 최신 기술(SOTA) 수준의 성능을 달성하였다. 게다가 본 연구는 제안한 접근법이 다른 도메인에도 성공적으로 일반화됨을 보여주었으며, Breakfast 및 COIN 절차적 활동 데이터셋에서 경쟁력 있는 성능을 기록하였다. 코드는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/md-mohaiminul/ViS4mer.

상태공간 영상 모델을 이용한 긴 영화 클립 분류 | 최신 연구 논문 | HyperAI초신경