11일 전

G-TAD: 시간 행동 탐지를 위한 서브그래프 로컬라이제이션

Mengmeng Xu, Chen Zhao, David S. Rojas, Ali Thabet, Bernard Ghanem
G-TAD: 시간 행동 탐지를 위한 서브그래프 로컬라이제이션
초록

시간적 행동 탐지(Temporal Action Detection)는 비디오 이해 분야에서 핵심적이지만 도전적인 과제이다. 비디오의 맥락은 효과적인 행동 탐지를 위한 중요한 단서이지만, 기존 연구들은 주로 시간적 맥락에 집중하는 반면, 의미적 맥락 및 기타 중요한 맥락 특성은 간과해왔다. 본 연구에서는 다중 수준의 의미적 맥락을 적응적으로 비디오 특징에 통합하기 위해 그래프 컨볼루션 네트워크(GCN) 모델을 제안하며, 시간적 행동 탐지를 하위 그래프 위치화 문제로 재정의한다. 구체적으로, 비디오 스니펫을 그래프 노드로 정의하고, 스니펫 간 상관관계를 엣지로 표현하며, 맥락과 연관된 행동을 목표 하위 그래프로 설정한다. 그래프 컨볼루션을 기본 연산으로 사용하여, 각 노드의 특징을 주변 맥락을 집계함으로써 학습하고, 그래프 내 엣지를 동적으로 업데이트하는 GCN 블록인 GCNeXt를 설계하였다. 또한 각 하위 그래프를 정확히 위치시키기 위해 유클리드 공간에 하위 그래프를 임베딩하는 SGAlign 레이어를 추가로 설계하였다. 광범위한 실험을 통해 G-TAD가 추가적인 감독 없이도 효과적인 비디오 맥락을 탐지할 수 있으며, 두 가지 주요 탐지 벤치마크에서 최신 기술(SOTA) 성능을 달성함을 확인하였다. ActivityNet-1.3에서 평균 mAP는 34.09%를 기록하였으며, THUMOS14에서는 제안 제안 처리 방법과 결합할 경우 [email protected]에서 51.6%의 성능을 달성하였다. G-TAD의 코드는 공개적으로 제공되며, https://github.com/frostinassiky/gtad 에서 확인할 수 있다.

G-TAD: 시간 행동 탐지를 위한 서브그래프 로컬라이제이션 | 최신 연구 논문 | HyperAI초신경