17 天前

HAMLET:一种基于分层多模态注意力的人体活动识别算法

Md Mofijul Islam, Tariq Iqbal
HAMLET:一种基于分层多模态注意力的人体活动识别算法
摘要

为了实现与人类的流畅协作,机器人需要具备准确识别人类活动的能力。尽管现代机器人配备了多种传感器,但由于多模态数据融合方面的挑战,实现鲁棒的人类活动识别(Human Activity Recognition, HAR)仍然是一个难题。为应对这一挑战,本文提出了一种基于深度神经网络的多模态HAR算法——HAMLET。该算法采用分层架构:底层通过多头自注意力机制(multi-head self-attention mechanism)对单模态数据中的时空特征进行编码;上层则引入一种新颖的多模态注意力机制,用于解耦并融合各模态中的显著特征,从而生成融合后的多模态特征。最终,这些多模态特征被输入全连接神经网络,用于人类活动的识别。我们在三个公开的人类活动数据集(UTD-MHAD [1]、UT-Kinect [2] 和 UCSD-MIT [3])上对HAMLET算法进行了评估,并与多种前沿的活动识别算法进行了对比。实验结果表明,HAMLET在所有数据集和各项评价指标上均优于其他对比基线方法,其中在UTD-MHAD数据集上达到最高的Top-1准确率95.12%,在UT-Kinect数据集上达到97.45%,在UCSD-MIT数据集上F1分数达到81.52%。此外,我们还可视化了单模态与多模态注意力图,为理解注意力机制在HAR任务中的作用提供了可解释性工具。