摘要
多模态传感器(视觉、非视觉及可穿戴设备)能够提供互补信息,有助于构建鲁棒的感知系统,以实现对人类活动的准确识别。然而,由于多模态传感器数据具有异构特性,且人类活动类型多样,加之传感器数据常存在噪声和时间不同步等问题,从中提取鲁棒的多模态表征仍面临巨大挑战。为此,本文提出一种基于协作多任务学习的引导式多模态融合方法——MuMu,用于提取用于人类活动识别(HAR)的鲁棒多模态表征。MuMu采用辅助任务学习策略,针对具有共同特征的活动组(activity-group)提取特定于该组的特征表示。随后,利用这些活动组特异性特征,引导我们提出的“引导式多模态融合方法”(GM-Fusion),以实现互补性多模态表征的提取,该过程作为主任务。我们在三个典型活动识别数据集上,将MuMu与当前最先进的多模态HAR方法进行了对比评估。大量实验结果表明,MuMu在所有三个数据集上均显著优于所比较的各类方法。此外,消融实验进一步证实,MuMu相较于未采用引导式多模态融合的基线模型具有显著优势(p < 0.05)。最后,MuMu在含噪声和时间错位传感器数据下的稳健表现表明,该方法具备在真实应用场景中进行人类活动识别的可行性与实用性。