
우리는 LiDAR 데이터 내 인간 관절 포인트 추정을 위한 새로운 완전 희소 네트워크 아키텍처인 \textit{VoxelKP}를 제안한다. 주요 과제는 3D 공간에서 객체가 희소하게 분포되어 있으나, 인간 관절 검출은 인간이 존재하는 모든 위치에서 상세한 국소 정보를 필요로 한다는 점이다. 본 논문에서는 네 가지 새로운 아이디어를 제안한다. 첫째, 다중 스케일의 맥락 정보를 포착하기 위해 희소 선택적 커널(sparse selective kernels)을 제안한다. 둘째, 각 인간 인스턴스 내 관절 간의 공간적 상관관계를 효과적으로 학습하기 위해 희소 박스 어텐션(sparse box-attention)을 도입한다. 셋째, 3D 복셀을 2D 그리드로 투영하여 Birds' Eye View를 표현할 때 절대 3D 좌표를 활용하기 위해 공간 인코딩(spatial encoding)을 통합한다. 넷째, 각 복셀 특징 처리와 희소 컨볼루션을 결합하기 위해 하이브리드 특징 학습(hybrid feature learning)을 제안한다. 제안한 방법은 Waymo 데이터셋에서 평가되었으며, 동일한 데이터로 훈련된 최신 기술 \textit{HUM3DIL} 대비 MPJPE 지표에서 27% 향상되었고, 25배 더 큰 데이터셋으로 사전 훈련된 최신 기술 \textit{GC-KPL} 대비 12% 향상되었다. 우리 지식에 따르면, \textit{VoxelKP}는 LiDAR 데이터로부터 3D 관절 포인트 추정이라는 도전적인 과제를 해결하기 위해 특별히 설계된 최초의 단일 단계(single-stage), 완전 희소 네트워크이며, 현재까지 최고의 성능을 달성하였다. 코드는 \url{https://github.com/shijianjian/VoxelKP}에서 공개되어 있다.