
초록
인간 골격은 인간 행동의 압축된 표현으로 최근 몇 년 동안 점점 더 주목을 받고 있습니다. 많은 골격 기반 행동 인식 방법들이 그래프 컨볼루션 네트워크(GCN)를 사용하여 인간 골격 위에서 특징을 추출합니다. 그러나 이전 연구에서 긍정적인 결과가 보여졌음에도 불구하고, GCN 기반 방법들은 견고성, 상호운용성, 확장성 측면에서 제한점을 가지고 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해 새로운 접근 방식인 PoseC3D를 제안합니다. PoseC3D는 인간 골격의 기본 표현으로 그래프 시퀀스 대신 3D 히트맵 스택을 사용합니다. GCN 기반 방법들과 비교할 때, PoseC3D는 시공간 특징 학습에 더 효과적이며, 자세 추정 노이즈에 대해 더 견고하며, 교차 데이터셋 설정에서 더 잘 일반화됩니다. 또한, PoseC3D는 추가적인 계산 비용 없이 다중 사람 시나리오를 처리할 수 있으며, 초기 융합 단계에서 다른 모달리티와 쉽게 통합될 수 있는 특징을 제공하여 성능 향상을 위한 큰 설계 공간을 제공합니다. 네 개의 도전적인 데이터셋에서 PoseC3D는 단독으로 골격을 사용하거나 RGB 모달리티와 결합하여 일관되게 우수한 성능을 보여주었습니다.