17일 전

HAMLET: 계층적 다중모달 주의 기반 인간 활동 인식 알고리즘

Md Mofijul Islam, Tariq Iqbal
HAMLET: 계층적 다중모달 주의 기반 인간 활동 인식 알고리즘
초록

사람들과 원활하게 협업하기 위해서 로봇은 인간의 행동을 정확하게 인식할 수 있는 능력이 필요하다. 현대 로봇은 다양한 센서를 탑재하고 있지만, 다중 모달 데이터 융합과 관련된 어려움으로 인해 강건한 인간 행동 인식(Human Activity Recognition, HAR)은 여전히 도전 과제로 남아 있다. 이러한 문제를 해결하기 위해 본 연구에서는 깊이 있는 신경망 기반의 다중 모달 HAR 알고리즘인 HAMLET을 제안한다. HAMLET은 계층적 아키텍처를 채택하며, 하위 계층은 다중 헤드 자기 주의(Multi-head Self-Attention) 메커니즘을 활용하여 단일 모달 데이터로부터 시공간적 특징을 인코딩한다. 또한, 상위 계층에서 각 단일 모달 특징의 핵심 정보를 분리하고 융합하여 다중 모달 특징을 계산하기 위해 새로운 다중 모달 주의 메커니즘을 개발하였다. 마지막으로, 계산된 다중 모달 특징은 완전 연결 신경망(fully connected neural network)에 입력되어 인간 행동을 인식한다. 제안한 알고리즘은 세 가지 인간 행동 데이터셋에서 최신의 활동 인식 알고리즘들과의 성능 비교를 통해 평가되었다. 그 결과, HAMLET은 모든 데이터셋과 평가 지표에서 다른 모든 기준 알고리즘을 상회하였으며, 각각 UTD-MHAD [1] 데이터셋에서 최고의 정확도(top-1 accuracy) 95.12%, UT-Kinect [2] 데이터셋에서 97.45%를 기록하였고, UCSD-MIT [3] 데이터셋에서는 F1 점수 81.52%를 달성하였다. 또한, 단일 모달 및 다중 모달 주의 맵을 시각화하여 주의 메커니즘이 HAR에 미치는 영향을 해석할 수 있는 도구를 제공하였다.

HAMLET: 계층적 다중모달 주의 기반 인간 활동 인식 알고리즘 | 최신 연구 논문 | HyperAI초신경