17일 전

스켈레톤 기반 동작 인식을 위한 다중 스케일 공간-시간 컨볼루션 신경망

{Jianming Liu, Qieshi Zhang, Ziliang Ren, Jun Cheng, Qin Cheng}
초록

스켈레톤 데이터는 복잡한 배경이나 조명 변화에 대해 강건하기 때문에 동작 인식에 중요한 정보를 제공한다. 최근 들어 스켈레톤 데이터에서 공간-시간 특징을 추출하는 데 한계가 있는 기존의 합성곱 신경망(Convolutional Neural Network, CNN) 또는 순환 신경망(RNN) 기반의 방법들은 인식 정확도에서 열등한 성능을 보이고 있다. 이에 따라 그래프 합성곱 신경망(Graph Convolutional Network, GCN) 기반의 여러 방법들이 뛰어난 성능을 달성하며 점차 주류로 자리 잡고 있다. 그러나 GCN 기반 방법은 계산 비용이 매우 크며, 일부 연구에서는 100 GFLOPs를 넘는 경우도 있다. 이는 스켈레톤 데이터의 높은 정보 밀도와 정반대되는 특징이다. 본 논문에서는 서로 다른 스케일의 공간-시간 표현 간에 은닉된 보완적 특성을 효과적으로 활용할 수 있도록 다중 스케일 공간-시간 합성곱(Multi-scale Spatial-Temporal Convolution, MSST) 모듈을 제안한다. 기존의 일부 CNN 기반 방법들이 스켈레톤 데이터를 허위 이미지(pseudo-image)로 변환하거나 복잡한 그래프 합성곱을 사용하는 대신, 시간 및 공간 차원에서 다중 스케일 합성곱을 적극 활용하여 관절 간의 포괄적인 의존성을 추출한다. 이 MSST 모듈을 통합하여, 고차원의 공간-시간 의미 특징을 추출할 수 있는 다중 스케일 공간-시간 합성곱 신경망(MSSTNet)을 제안한다. 기존 방법들이 계산 비용 증가를 감수하면서 성능을 향상시키는 것과 달리, MSSTNet은 가벼운 모델 크기와 빠른 추론 속도를 갖추고 있어 간편한 구현이 가능하다. 또한, MSSTNet은 사분류 흐름(four-stream) 아키텍처에 통합되어 다양한 모달리티의 데이터를 융합함으로써 인식 정확도에 두드러진 향상을 제공한다. NTU RGB+D 60, NTU RGB+D 120, UAV-Human, Northwestern-UCLA 등의 데이터셋에서 제안하는 MSSTNet은 최신 기술 대비 훨씬 낮은 계산 비용으로 경쟁력 있는 성능을 달성하였다.