
초록
현대 딥 러닝 모델의 3D 인간 행동 인식에 대한 판별력은 점점 강해지고 있습니다. 최근 3D 스켈레톤을 이용한 3D 인간 행동 표현의 부활과 함께, 이 분야에서의 연구 진전은 질적으로도 양적으로도 상당했습니다. 그러나 최신 학습 기반 방법들의 내부 작동 원리는 여전히 대부분 흑상자 상태입니다. 본 연구에서는 3D 인간 행동 인식을 위해 새로운 클래스의 모델인 시계열 합성곱 신경망(TCN, Temporal Convolutional Neural Networks)을 제안합니다. 인기 있는 LSTM 기반 순환 신경망(RNN, Recurrent Neural Network) 모델과 비교할 때, 해석 가능한 입력(예: 3D 스켈레톤)이 주어지면 TCN은 3D 인간 행동 인식을 위한 명시적인 공간-시간 표현을 학습하는 방법을 제공합니다. 우리는 해석성을 고려하여 TCN을 재설계하는 전략과 이러한 모델 특성이 어떻게 강력한 3D 활동 인식 방법론 구축에 활용되는지를 설명합니다. 본 연구를 통해 우리는 더 이해하기 쉽고 설명 가능하며 해석 가능한 공간-시간 모델로 한 걸음을 내딛고자 합니다. 결과적으로 개발된 Res-TCN 모델은 가장 큰 3D 인간 행동 인식 데이터셋인 NTU-RGBD에서 최고 수준의 성능을 달성하였습니다.