
초록
대부분의 행동 인식 방법은 a) 평균 풀링, 최대 풀링, RNN 등과 같은 프레임 레벨 CNN 특성의 후기 집계 또는 b) 3D 컨볼루션을 통한 시공간 집계를 기반으로 합니다. 첫 번째 방법은 일정 수준의 추상화까지 프레임 특성 간 독립성을 가정하고 그 이후에 고차원 집계를 수행하는 반면, 두 번째 방법은 조기 융합으로 그룹화된 프레임에서 시공간 특성을 추출합니다. 본 논문에서는 이 두 가지 방법 사이의 공간을 탐구하며, 고차원 표현으로 발전하는 과정에서 인접한 특성 분지가 상호 작용하도록 합니다. 이 상호 작용은 계층 구조의 각 단계에서 특성 차이와 평균화 사이에서 발생하며, 이는 이전 연구들이 전역적으로 특정 모드(예: 특성 차이)를 설계 선택으로 강제하는 것과 달리 로컬에서 적절한 모드를 학습하여 선택하는 컨볼루션 구조를 가지고 있습니다. 또한 우리는 이 상호 작용이 보수적이도록 제약을 두어, 예를 들어 한 분지에서의 로컬 특성 감소는 다른 분지에서의 추가로 보상되도록 하여 전체적인 특성 흐름이 유지되도록 합니다. 우리는 제안된 방법의 성능을 TSN, TRN 및 ECO와 같은 여러 기존 모델에서 평가하여, 행동 인식 성능 개선에 대한 유연성과 효과성을 보여줍니다.