6 个月前

音频和语音处理

计算机视觉

Ángel Llamazares Miguel Antunes Santiago Montiel-Marín Luis M. Bergasa Pablo Pardo-Decimavilla

摘要

识别道路中的分心行为对于减少交通事故至关重要。传统上，基于视频的网络被广泛用于此类任务，但其计算成本较高，且对视角变化较为敏感。本文提出了一种基于姿态的驾驶员行为分类新方法，该方法采用语音识别网络架构，相较传统视频方法更加轻量化且对视角变化具有更强的鲁棒性。我们利用音频与姿态数据在信息编码上的相似性，将人体姿态表示为随时间变化的关键点序列。所提出的网络架构基于Squeezeformer——一种高效的基于注意力机制的语音识别网络。为进一步提升模型泛化能力，我们引入了一系列数据增强技术。在Drive&Act数据集上的实验结果表明，该方法在性能上优于当前最先进的技术。此外，我们还探讨了目标信息融合以及视角变化对分类效果的影响。实验结果充分验证了语音识别网络在基于姿态的行为分类任务中的有效性与鲁棒性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

计算机视觉

Ángel Llamazares Miguel Antunes Santiago Montiel-Marín Luis M. Bergasa Pablo Pardo-Decimavilla

摘要

识别道路中的分心行为对于减少交通事故至关重要。传统上，基于视频的网络被广泛用于此类任务，但其计算成本较高，且对视角变化较为敏感。本文提出了一种基于姿态的驾驶员行为分类新方法，该方法采用语音识别网络架构，相较传统视频方法更加轻量化且对视角变化具有更强的鲁棒性。我们利用音频与姿态数据在信息编码上的相似性，将人体姿态表示为随时间变化的关键点序列。所提出的网络架构基于Squeezeformer——一种高效的基于注意力机制的语音识别网络。为进一步提升模型泛化能力，我们引入了一系列数据增强技术。在Drive&Act数据集上的实验结果表明，该方法在性能上优于当前最先进的技术。此外，我们还探讨了目标信息融合以及视角变化对分类效果的影响。实验结果充分验证了语音识别网络在基于姿态的行为分类任务中的有效性与鲁棒性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供