시점 적응 신경망을 이용한 고효율 스켈레톤 기반 인간 행동 인식

스켈레톤 기반 인간 행동 인식은 3D 스켈레톤 데이터의 접근성과 인기 덕분에 최근 주목을 받고 있습니다. 스켈레톤 기반 행동 인식에서 가장 중요한 도전 과제 중 하나는 데이터를 캡처할 때 발생하는 큰 시점 변동입니다. 이 논문에서는 시점 변동의 영향을 완화하기 위해 새로운 시점 적응 방안을 제시합니다. 이 방안은 학습 기반 데이터 구동 방식으로 가상 관찰 시점을 자동으로 결정합니다. 우리는 RNN(Recurrent Neural Network) 기반인 VA-RNN과 CNN(Convolutional Neural Network) 기반인 VA-CNN이라는 두 가지 시점 적응 신경망을 설계했습니다. 각 신경망에 대해 새로운 시점 적응 모듈이 가장 적합한 관찰 시점을 학습하고 결정하며, 이를 주 분류 신경망과 함께 끝까지 연결된(end-to-end) 인식을 위해 해당 시점으로 스켈레톤을 변환합니다. 생략 연구(ablation studies) 결과, 제안된 시점 적응 모델이 다양한 시점의 스켈레톤을 훨씬 일관된 가상 시점으로 변환하여 시점 영향을 크게 제거할 수 있음을 확인하였습니다. 또한, 우리는 두 개의 신경망 점수를 결합하여 융합 예측(fused prediction)을 제공하는 두 스트림 방안(two-stream scheme, VA-fusion이라고 지칭됨)을 설계하였습니다. 다섯 가지 어려운 벤치마크에서 수행된 광범위한 실험 평가들은 제안된 시점 적응 신경망의 효과성과 최신 접근법보다 우수한 성능을 입증하였습니다. 소스 코드는 https://github.com/microsoft/View-Adaptive-Neural-Networks-for-Skeleton-based-Human-Action-Recognition에서 이용 가능합니다.