3D 이벤트 포인트 클라우드를 통한 효율적인 인간 자세 추정

RGB 이미지를 기반으로 하는 인간 자세 추정(Human Pose Estimation, HPE)은 딥러닝 덕분에 급속한 발전을 이루었습니다. 그러나 이벤트 기반의 HPE는 아직 충분히 연구되지 않았으며, 극단적인 환경과 효율성이 중요한 조건에서의 응용 가능성이 여전히 큽니다. 본 논문에서는 처음으로 3D 이벤트 포인트 클라우드에서 직접 2D 인간 자세를 추정하는 방법을 제안합니다. 우리는 새로운 이벤트 표현 방법인 래스터라이즈된 이벤트 포인트 클라우드를 제안합니다. 이 방법은 짧은 시간 슬라이스 내에서 같은 위치에 있는 이벤트들을 집계하여, 여러 통계적 신호로부터 3D 특성을 유지하면서 메모리 소비와 계산 복잡도를 크게 줄입니다. 우리의 연구에서 이를 통해 효율성이 증명되었습니다.이어 우리는 래스터라이즈된 이벤트 포인트 클라우드를 PointNet, DGCNN, Point Transformer라는 세 가지 다른 백본 모델의 입력으로 사용하고, 두 개의 선형 레이어 디코더를 통해 인간 키포인트의 위치를 예측합니다. 우리의 방법을 기반으로 PointNet은 매우 빠른 속도로 유망한 결과를 달성하였으며, Point Transformer는 이전의 이벤트 프레임 기반 방법들과 비슷한 수준의 높은 정확도를 보였습니다. 포괄적인 실험 결과들은 우리 제안 방법이 이러한 3D 백본 모델들에서 일관되게 효과적임을 입증하였습니다.PointNet을 기반으로 한 우리의 방법은 DHP19 데이터셋에서 2048개 포인트 입력 시 MPJPE3D 측정치가 82.46mm이며, NVIDIA Jetson Xavier NX 엣지 컴퓨팅 플랫폼에서는 지연 시간이 단지 12.29ms에 불과해 실시간 감지에 이상적으로 적합함을 확인할 수 있었습니다. 코드는 https://github.com/MasterHow/EventPointPose 에서 제공됩니다.