11일 전

시계열 동작 탐지를 위한 비디오 자체 스티칭 그래프 네트워크

Chen Zhao, Ali Thabet, Bernard Ghanem
시계열 동작 탐지를 위한 비디오 자체 스티칭 그래프 네트워크
초록

비디오 내 시간적 행동 지역화(Temporal Action Localization, TAL)는 행동의 시간적 규모가 매우 다양하기 때문에 도전적인 과제이다. 데이터셋에서 짧은 행동(short actions)은 일반적으로 대부분을 차지하지만, 성능은 가장 낮은 편이다. 본 논문에서는 이러한 짧은 행동에 대한 도전을 직면하고, 다중 수준의 크로스스케일 솔루션인 비디오 자체 스티칭 그래프 네트워크(Video Self-Stitching Graph Network, VSGN)를 제안한다. VSGN은 두 가지 핵심 구성 요소를 포함한다: 비디오 자체 스티칭(Video Self-Stitching, VSS)과 크로스스케일 그래프 피라미드 네트워크(Cross-Scale Graph Pyramid Network, xGPN). VSS에서는 비디오의 짧은 시간 구간에 집중하여 시간 차원을 확대함으로써 더 큰 스케일을 생성한다. 원본 클립과 확대된 복사본을 하나의 입력 시퀀스에 연결함으로써 두 스케일 간의 보완적 특성을 효과적으로 활용한다. xGPN 구성 요소는 각각의 크로스스케일 그래프 네트워크 피라미드를 통해 크로스스케일 상관관계를 더욱 심화하여 활용하며, 각 네트워크는 동일한 스케일 내와 다른 스케일 간의 특징을 융합하는 하이브리드 모듈을 포함한다. 제안하는 VSGN은 특징 표현을 강화할 뿐만 아니라 짧은 행동에 대해 더 많은 긍정적 앵커(positive anchors)와 더 많은 짧은 학습 샘플을 생성한다. 실험 결과, VSGN은 짧은 행동의 지역화 성능을 크게 향상시켰으며, THUMOS-14 및 ActivityNet-v1.3 데이터셋에서 최신 기술(SOTA) 수준의 전반적인 성능을 달성하였다.

시계열 동작 탐지를 위한 비디오 자체 스티칭 그래프 네트워크 | 최신 연구 논문 | HyperAI초신경