11일 전

비디오 내 시계열 행동 탐지를 위한 그래프 컨볼루션 모듈

Runhao Zeng, Wenbing Huang, Mingkui Tan, Yu Rong, Peilin Zhao, Junzhou Huang, Chuang Gan
비디오 내 시계열 행동 탐지를 위한 그래프 컨볼루션 모듈
초록

시계열 행동 로컬라이제이션은 컴퓨터 비전 분야에서 오랫동안 연구되어온 주제이다. 기존의 최첨단 행동 로컬라이제이션 방법들은 각 비디오를 여러 개의 행동 단위(이중 단계 방법에서는 제안 영역(proposals)으로, 단일 단계 방법에서는 세그먼트(segment)로 나누어, 각 단위에 대해 별도로 행동 인식 또는 회귀를 수행하지만, 학습 과정에서 이들 간의 관계를 명시적으로 활용하지 않는다. 본 논문에서는 행동 단위 간의 관계가 행동 로컬라이제이션에 중요한 역할을 한다고 주장하며, 더 강력한 행동 탐지기(디텍터)는 각 행동 단위의 국소적 콘텐츠를 포착할 뿐만 아니라, 해당 행동과 관련된 더 넓은 맥락을 고려할 수 있어야 한다고 제안한다. 이를 위해, 기존의 행동 로컬라이제이션 방법(이중 단계 및 단일 단계 패러다임 모두 포함)에 쉽게 통합할 수 있는 일반적인 그래프 컨볼루션 모듈(GCM: Graph Convolutional Module)을 제안한다. 구체적으로, 각 행동 단위를 노드로, 두 행동 단위 간의 관계를 엣지로 표현하는 그래프를 구성한다. 여기서는 두 가지 유형의 관계를 사용한다. 하나는 서로 다른 행동 단위 간의 시계열적 연결을 포착하기 위한 것이고, 다른 하나는 행동 단위 간의 의미적 관계를 설명하기 위한 것이다. 특히 이중 단계 방법에서의 시계열적 연결에 대해서는, 겹치는 행동 단위를 연결하는 엣지와, 주변에 위치하지만 서로 분리된 행동 단위를 연결하는 엣지의 두 가지 다른 유형을 추가로 탐색한다. 이러한 그래프 구조 위에서 그래프 컨볼루션 네트워크(GCNs)를 적용하여 서로 다른 행동 단위 간의 관계를 모델링함으로써, 행동 로컬라이제이션을 향상시키는 더 정보적인 표현을 학습할 수 있다. 실험 결과, 제안한 GCM은 이중 단계 방법(CBR, R-C3D 등)과 단일 단계 방법(D-SSAD 등)을 포함한 기존 행동 로컬라이제이션 방법의 성능을 일관되게 향상시킴으로써, 본 모듈의 일반성과 효과성을 입증하였다.

비디오 내 시계열 행동 탐지를 위한 그래프 컨볼루션 모듈 | 최신 연구 논문 | HyperAI초신경