17 天前

你表现得像你说的那样吗?基于姿态的驱动行为分类与语音识别网络探索

{Ángel Llamazares, Miguel Antunes, Santiago Montiel-Marín, Luis M. Bergasa, Pablo Pardo-Decimavilla}
摘要

识别道路中的分心行为对于减少交通事故至关重要。传统上,基于视频的网络被广泛用于此类任务,但其计算成本较高,且对视角变化较为敏感。本文提出了一种基于姿态的驾驶员行为分类新方法,该方法采用语音识别网络架构,相较传统视频方法更加轻量化且对视角变化具有更强的鲁棒性。我们利用音频与姿态数据在信息编码上的相似性,将人体姿态表示为随时间变化的关键点序列。所提出的网络架构基于Squeezeformer——一种高效的基于注意力机制的语音识别网络。为进一步提升模型泛化能力,我们引入了一系列数据增强技术。在Drive&Act数据集上的实验结果表明,该方法在性能上优于当前最先进的技术。此外,我们还探讨了目标信息融合以及视角变化对分类效果的影响。实验结果充分验证了语音识别网络在基于姿态的行为分类任务中的有效性与鲁棒性。