18일 전

다중-GAT: 인간 활동 인식을 위한 그래픽스 주의 기반 계층적 다중모달 표현 학습 방법

{Tariq Iqbal, Md Mofijul Islam}
초록

사람의 행동 인식은 로봇이 사람 주변에서 유용하게 작동하기 위해 가져야 할 핵심 능력 중 하나이다. 현대 로봇은 다양한 유형의 센서를 탑재하고 있지만, 인간 행동 인식(HAR)은 여전히 노이즈가 많은 센서 데이터가 존재하는 환경에서 도전적인 문제로 남아 있다. 본 연구에서는 계층적으로 보완적인 다중 모달 특징을 학습하는 다중 모달 그래픽스 주의 기반 HAR 접근법인 Multi-GAT을 제안한다. 우리는 특징 간 상호작용을 가능하게 하기 위해 중요한 모달 특징을 분리하고 추출할 수 있는 다중 모달 믹스처 오브 익스퍼트 모델을 개발하였다. 또한, 다중 모달 간 관계를 포착하여 보완적인 다중 모달 특징을 추출하기 위해 새로운 메시지 전달 기반 그래픽스 주의 방식을 도입하였다. 두 개의 다중 모달 인간 행동 데이터셋에서 수행된 실험 결과에 따르면, Multi-GAT은 테스트된 모든 데이터셋과 평가 지표에서 최신 기술(SOTA) 알고리즘을 모두 상회하는 성능을 보였다. 특히 노이즈가 있는 센서 데이터에 대한 실험 결과는 Multi-GAT이 평가된 모든 베이스라인보다 일관되게 뛰어난 성능을 발휘함을 시사한다. 이러한 강건한 성능은 Multi-GAT이 노이즈가 많은 인간 환경에서도 원활한 인간-로봇 협업을 가능하게 할 수 있음을 시사한다.