16일 전
시간-채널 집약을 통한 스켈레톤 기반 동작 인식
Shengqin Wang, Yongji Zhang, Minghao Zhao, Hong Qi, Kai Wang, Fenglin Wei, Yu Jiang

초록
스켈레톤 기반 동작 인식 방법은 공간-시간 스켈레톤 맵의 의미 정보 추출 측면에서 한계를 지닌다. 그러나 기존의 방법들은 시간 차원과 공간 차원의 특징을 효과적으로 통합하는 데 어려움을 겪으며, 한 쪽에 치우친 성능을 보이는 경향이 있다. 본 논문에서는 공간적 및 시간적 구조를 동적으로 학습하고, 다양한 시간적 차원과 채널 차원에서의 구조적 특징을 효율적으로 통합하기 위해 시간-채널 집계 그래프 컨볼루션 네트워크(Temporal-Channel Aggregation Graph Convolutional Networks, TCA-GCN)를 제안한다. 제안된 모델은 시간 집계 모듈(Temporal Aggregation module)을 통해 시간 차원의 특징을 학습하고, 채널 집계 모듈(Channel Aggregation module)을 통해 공간적 동적 채널별 구조적 특징과 시간적 동적 구조적 특징을 효율적으로 결합한다. 또한 시간 모델링 과정에서 다중 스케일 스켈레톤 특징을 추출하고, 주의 메커니즘(attention mechanism)을 활용하여 이를 융합한다. 광범위한 실험 결과를 통해 제안한 모델이 NTU RGB+D, NTU RGB+D 120, 그리고 NW-UCLA 데이터셋에서 최신 기술(SOTA)을 초월하는 성능을 나타냄을 확인하였다.