상태공간 트랜스포머를 이용한 효율적인 영화 장면 탐지

영화의 다양한 장면을 구분하는 능력은 영화의 줄거리를 이해하는 데 있어 핵심적인 요소이다. 그러나 매우 긴 영화 영상 세그먼트에 대한 추론 능력이 필요하므로, 영화 장면을 정확히 탐지하는 것은 종종 도전적인 과제이다. 이는 대부분의 기존 비디오 인식 모델이 단기적인 비디오 분석을 위해 설계되어 있는 것과 대조된다. 본 연구에서는 긴 영화 영상에서 의존성을 효율적으로 포착하여 정확한 영화 장면 탐지가 가능한 상태공간 트랜스포머(State-Space Transformer) 모델을 제안한다. 본 모델은 새로운 S4A 빌딩 블록을 기반으로 개발되었으며, 구조화된 상태공간 시계열(S4)과 자기주의(self-attention, A) 레이어의 장점을 결합하였다. 카메라 위치가 변하지 않는 연속된 촬영 구간(영화 샷)으로 나누어진 프레임 시퀀스를 입력으로 하여, S4A 블록은 먼저 자기주의를 적용하여 촬영 내부의 단기적 의존성을 포착한다. 이후 S4A 블록 내의 상태공간 연산을 통해 촬영 간의 장기적 상호작용 정보를 통합한다. 이러한 S4A 블록을 다수 번 반복적으로 스택하여 최종적인 TranS4mer 모델을 구성하며, 이는 엔드투엔드(end-to-end)로 학습 가능한 구조이다. 제안하는 TranS4mer 모델은 MovieNet, BBC, OVSD 등 세 가지 영화 장면 탐지 데이터셋에서 기존의 모든 방법을 능가하며, 표준 트랜스포머 모델보다 2배 빠르고 GPU 메모리 사용량은 3배 적게 요구한다. 본 연구의 코드와 모델은 공개될 예정이다.