3D 동작 인식을 위한 트리 구조 및 기준 관절을 기반으로 한 스켈레톤 이미지 표현

최근 몇 년간 컴퓨터 비전 연구계는 3차원 인간 행동 인식을 위해 영상 내 시간적 동역학을 모델링하는 방법에 대해 꾸준히 연구해왔다. 이를 위해 두 가지 주요 기초적 접근 방식이 연구되어 왔다. 첫째, 장단기 기억을 갖춘 순환 신경망(RNNs, Long-Short Term Memory)을 활용한 방식이며, 둘째, 뼈대(joint) 이미지 표현을 컨볼루션 신경망(CNN)의 입력으로 사용하는 방식이다. RNN 기반 접근법은 우수한 성능을 보이지만, 뼈대 관절 간의 공간적 관계를 효율적으로 학습할 수 없다는 한계를 지닌다. 반면, CNN 기반 접근법에서 사용되는 표현 방식은 2차원 배열로부터 구조적 정보를 자연스럽게 학습할 수 있는 능력을 지니고 있어, 뼈대 관절 간의 공간적 관계를 효과적으로 학습할 수 있다는 장점을 갖는다. 이러한 표현 방식의 성능을 further 향상시키기 위해, 본 연구에서는 컨볼루션 신경망의 입력으로 사용할 수 있는 새로운 뼈대 이미지 표현 방식인 '트리 구조 기준 관절 이미지(Tree Structure Reference Joints Image, TSRJI)'를 제안한다. 제안된 표현 방식은 기준 관절의 사용과 뼈대의 트리 구조를 결합함으로써, 다양한 관절 간 공간적 관계를 포함하면서도, 깊이 우선 탐색 알고리즘을 활용해 뼈대 트리를 순회함으로써 중요한 공간적 관계를 유지하는 장점을 지닌다. 실험 결과, 제안된 표현 방식은 두 개의 데이터셋에서 3차원 행동 인식에 있어 뛰어난 성능을 보이며, 최신 NTU RGB+D 120 데이터셋에서 최고 수준의 성능을 달성하였다.