2달 전

계층적 특성 집약 네트워크를 이용한 비디오 행동 인식

Swathikiran Sudhakaran; Sergio Escalera; Oswald Lanz
계층적 특성 집약 네트워크를 이용한 비디오 행동 인식
초록

대부분의 행동 인식 방법은 a) 평균 풀링, 최대 풀링, RNN 등과 같은 프레임 레벨 CNN 특성의 후기 집계 또는 b) 3D 컨볼루션을 통한 시공간 집계를 기반으로 합니다. 첫 번째 방법은 일정 수준의 추상화까지 프레임 특성 간 독립성을 가정하고 그 이후에 고차원 집계를 수행하는 반면, 두 번째 방법은 조기 융합으로 그룹화된 프레임에서 시공간 특성을 추출합니다. 본 논문에서는 이 두 가지 방법 사이의 공간을 탐구하며, 고차원 표현으로 발전하는 과정에서 인접한 특성 분지가 상호 작용하도록 합니다. 이 상호 작용은 계층 구조의 각 단계에서 특성 차이와 평균화 사이에서 발생하며, 이는 이전 연구들이 전역적으로 특정 모드(예: 특성 차이)를 설계 선택으로 강제하는 것과 달리 로컬에서 적절한 모드를 학습하여 선택하는 컨볼루션 구조를 가지고 있습니다. 또한 우리는 이 상호 작용이 보수적이도록 제약을 두어, 예를 들어 한 분지에서의 로컬 특성 감소는 다른 분지에서의 추가로 보상되도록 하여 전체적인 특성 흐름이 유지되도록 합니다. 우리는 제안된 방법의 성능을 TSN, TRN 및 ECO와 같은 여러 기존 모델에서 평가하여, 행동 인식 성능 개선에 대한 유연성과 효과성을 보여줍니다.

계층적 특성 집약 네트워크를 이용한 비디오 행동 인식 | 최신 연구 논문 | HyperAI초신경