3달 전

PSUMNet: 효율적인 포즈 기반 동작 인식을 위한 유일한 모달리티 부분 스트림

Neel Trivedi, Ravi Kiran Sarvadevabhatla
PSUMNet: 효율적인 포즈 기반 동작 인식을 위한 유일한 모달리티 부분 스트림
초록

포즈 기반 행동 인식은 일반적으로 포즈 트리의 관절을 전체적으로 처리하는 방식으로 접근된다. 그러나 이러한 접근 방식은 행동 카테고리가 종종 손(예: '엄지척')이나 다리(예: '킥')와 같은 일부 관절 그룹에 국한된 동적 행동 특성을 갖는다는 사실을 간과한다. 일부 부분 그룹 기반 접근 방식은 존재하지만, 각 부분 그룹이 전반적인 포즈 프레임 내에서 고려되지 않아 성능에 한계가 있다. 또한 기존 방법들은 독립적인 모달리티 스트림(예: 관절, 뼈, 관절 속도, 뼈 속도)을 사용하며, 이러한 스트림들에 대해 네트워크를 여러 번 학습시켜 학습 파라미터 수가 크게 증가한다. 이러한 문제를 해결하기 위해 우리는 확장성과 효율성이 뛰어난 포즈 기반 행동 인식을 위한 새로운 접근 방법인 PSUMNet을 제안한다. 표현 수준에서 기존의 모달리티 기반 스트림이 아닌, 전역 프레임 기반의 부분 스트림 접근 방식을 제안한다. 각 부분 스트림 내에서 여러 모달리티로부터 얻은 데이터가 통합되어 처리 파이프라인에 의해 활용된다. 실험적으로 PSUMNet은 널리 사용되는 NTURGB+D 60/120 및 밀도 높은 관절 스켈레톤 데이터셋인 NTU 60-X/120-X에서 최고 수준의 성능을 달성한다. PSUMNet은 매우 효율적이며, 파라미터 수가 100%~400% 더 많은 경쟁 기법들보다 우수한 성능을 보인다. 또한 SHREC 손 제스처 데이터셋에 대해서도 경쟁력 있는 성능을 보이며 일반화 능력을 입증한다. 종합적으로 PSUMNet의 확장성, 뛰어난 성능 및 높은 효율성은 행동 인식 및 계산 자원이 제한된 임베디드 및 엣지 디바이스에의 배포에 매우 매력적인 선택지로 제시된다. 코드와 사전 학습된 모델은 https://github.com/skelemoa/psumnet 에서 확인할 수 있다.