
초록
현재 최첨단의 스켈레톤 기반 행동 인식 접근 방식은 대부분 순환 신경망(RNN)을 기반으로 하고 있습니다. 본 논문에서는 행동 분류와 검출을 위한 새로운 합성곱 신경망(CNN) 기반 프레임워크를 제안합니다. 원시 스켈레톤 좌표와 스켈레톤 운동이 직접 CNN에 입력되어 라벨 예측이 이루어집니다. 중요한 스켈레톤 관절을 자동으로 재배치하고 선택하기 위한 새로운 스켈레톤 변환 모듈이 설계되었습니다. 단순한 7층 네트워크를 사용하여 NTU RGB+D 데이터셋의 검증 세트에서 89.3%의 정확도를 달성했습니다. 비가공된 비디오에서의 행동 검출을 위해 시간적 구간 제안을 추출하기 위한 윈도우 제안 네트워크를 개발하였으며, 이 네트워크 내에서 추가로 분류됩니다. 최근 PKU-MMD 데이터셋에서 93.7%의 mAP를 달성하여 기준선을 크게 초과하였습니다.