
골격 기반 동작 인식에서 핵심적인 문제 중 하나는 모든 골격 관절에서 구별 가능한 특징을 효과적으로 추출하는 것이다. 그러나 이 작업을 위한 최신 최고 수준(SOTA) 모델의 복잡성은 과도하게 정교하고 과도하게 파라미터화된 경향이 있다. 이러한 모델의 학습 및 추론 효율성이 낮아 대규모 데이터셋에서 모델 아키텍처의 검증 비용이 증가하고 있다. 위 문제를 해결하기 위해, 최근 개발된 고도화된 분리형 합성곱 층을 조기 병합 다중 입력 브랜치(MIB) 네트워크에 통합하여, 골격 기반 동작 인식을 위한 효율적인 그래프 합성곱 네트워크(GCN) 베이스라인을 구축하였다. 또한, 이러한 베이스라인을 기반으로 네트워크의 폭과 깊이를 동기적으로 확장하는 복합 스케일링 전략을 설계하였으며, 최종적으로 높은 정확도와 적은 학습 가능 파라미터 수를 동시에 달성한 효율적인 GCN 베이스라인의 가족인 EfficientGCN-Bx를 제안한다. 여기서 'x'는 스케일링 계수를 의미한다. NTU RGB+D 60 및 120과 같은 두 개의 대규모 데이터셋에서 제안하는 EfficientGCN-B4 베이스라인은 다른 SOTA 방법들을 능가하며, 특히 NTU 60 데이터셋의 교차 주체 기준에서 91.7%의 정확도를 달성하였다. 또한, 최고 수준의 SOTA 방법 중 하나인 MS-G3D보다 모델 크기는 3.15배 작고, 추론 속도는 3.21배 빠르다. PyTorch 버전의 소스 코드와 사전 학습된 모델은 https://github.com/yfsong0709/EfficientGCNv1 에서 공개되어 있다.