11일 전
자세 인식을 위한 시공간 다층 퍼셉트론
Adrian Holzbock, Alexander Tsaregorodtsev, Youssef Dawoud, Klaus Dietmayer, Vasileios Belagiannis

초록
자율주행차와 인간 간의 상호작용을 위해 제스처 인식은 핵심적인 요소이다. 기존의 접근 방식은 이미지 특징, 키포인트, 뼈 벡터 등 다양한 모달리티를 결합하는 데 초점을 맞추고 있으나, 본 연구에서는 신체 스켈레톤 입력 데이터만을 사용하여 최신 기술 수준의 성능을 달성하는 신경망 아키텍처를 제안한다. 자율주행차 환경에서의 제스처 인식을 위한 공간-시간 다층 퍼셉트론(Spatio-Temporal Multilayer Perceptron)을 제안하며, 시간에 따라 변화하는 3D 신체 자세를 입력으로 받아 공간적 및 시간적 특징을 추출하기 위해 시간적 및 공간적 혼합 연산을 정의한다. 또한, Squeeze-and-Excitation 레이어를 활용하여 각 시간 단계의 중요도를 재가중함으로써 모델의 인식 능력을 강화한다. TCG 및 Drive&Act 데이터셋을 대상으로 철저한 평가를 수행하여 본 연구의 제안 방식이 뛰어난 성능을 보임을 입증한다. 더불어, 제안된 모델을 실제 자율주행차에 배포하여 실시간 처리 능력과 안정적인 실행 성능을 확인하였다.