스켈레톤 기반 동작 인식을 위한 다중 스트림 적응형 그래프 컨볼루션 네트워크

그래프 컨볼루션 네트워크(GCN)는 CNN을 더 일반적인 비유클리드 구조로 일반화한 것으로, 뼈대 기반 동작 인식에서 뛰어난 성능을 달성해왔다. 그러나 기존의 GCN 기반 모델들은 여전히 몇 가지 문제를 안고 있다. 첫째, 그래프의 구조(topology)가 경험적 방식으로 설정되며, 모든 모델 레이어와 입력 데이터에 대해 고정되어 있다. 이는 GCN 모델의 계층 구조와 동작 인식 과제에서 나타나는 데이터의 다양성에 적합하지 않을 수 있다. 둘째, 뼈대 데이터의 2차 정보—즉, 뼈의 길이와 방향—는 거의 탐색되지 않았는데, 이러한 정보는 인간의 동작 인식에 있어 자연스럽게 더 풍부하고 구분력 있는 특징을 제공한다. 본 연구에서는 뼈대 기반 동작 인식을 위한 새로운 다중 스트림 주의력 강화 적응형 그래프 컨볼루션 신경망(MS-AAGCN)을 제안한다. 본 모델에서 그래프 구조는 입력 데이터에 따라 종단적(end-to-end) 방식으로 균일하게 또는 개별적으로 학습될 수 있다. 이러한 데이터 주도(data-driven) 접근 방식은 그래프 구성의 유연성을 높이며, 다양한 데이터 샘플에 더 잘 적응할 수 있는 일반성을 부여한다. 또한 제안된 적응형 그래프 컨볼루션 레이어는 공간-시간-채널 주의력 모듈을 통해 추가로 강화되어, 모델이 중요한 관절, 프레임 및 특징에 더 집중할 수 있도록 한다. 더불어, 다중 스트림 프레임워크를 통해 관절과 뼈의 정보뿐 아니라 그들의 운동 정보를 동시에 모델링함으로써 인식 정확도에 뚜렷한 향상을 가져왔다. NTU-RGBD와 Kinetics-Skeleton 두 개의 대규모 데이터셋에서 실시한 광범위한 실험 결과, 본 모델의 성능이 기존 최고 수준의 기술을 크게 뛰어넘음을 입증하였다.