8 个月前

卷积神经网络

计算机视觉

Liao Junhua ; Duan Haihan ; Feng Kanghui ; Zhao Wanbing ; Yang Yanbing ; Chen Liangyin

摘要

活跃说话人检测是在音视频场景理解中的一项具有挑战性的任务，其目标是在一个或多个说话人的场景中检测出谁在说话。该任务因其在说话人日志、说话人跟踪和自动视频编辑等应用中的重要性而受到了广泛关注。现有的研究试图通过输入多个候选信息并设计复杂的模型来提高性能。尽管这些方法取得了出色的性能，但它们对内存和计算资源的高消耗使得在资源受限的场景中难以应用。因此，我们构建了一种轻量级的活跃说话人检测架构，通过减少输入候选信息、分离二维和三维卷积进行音视频特征提取，并应用低计算复杂度的门控循环单元（GRU）进行跨模态建模。实验结果表明，在AVA-ActiveSpeaker数据集上，我们的框架实现了具有竞争力的mAP性能（94.1%对比94.2%），同时资源成本显著低于现有最先进方法，特别是在模型参数（1.0M对比22.5M，约23倍）和浮点运算次数（FLOPs）（0.6G对比2.6G，约4倍）。此外，我们的框架在Columbia数据集上的表现也很好，显示出良好的鲁棒性。代码和模型权重可在以下链接获取：https://github.com/Junhua-Liao/Light-ASD。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

计算机视觉

Liao Junhua ; Duan Haihan ; Feng Kanghui ; Zhao Wanbing ; Yang Yanbing ; Chen Liangyin

摘要

活跃说话人检测是在音视频场景理解中的一项具有挑战性的任务，其目标是在一个或多个说话人的场景中检测出谁在说话。该任务因其在说话人日志、说话人跟踪和自动视频编辑等应用中的重要性而受到了广泛关注。现有的研究试图通过输入多个候选信息并设计复杂的模型来提高性能。尽管这些方法取得了出色的性能，但它们对内存和计算资源的高消耗使得在资源受限的场景中难以应用。因此，我们构建了一种轻量级的活跃说话人检测架构，通过减少输入候选信息、分离二维和三维卷积进行音视频特征提取，并应用低计算复杂度的门控循环单元（GRU）进行跨模态建模。实验结果表明，在AVA-ActiveSpeaker数据集上，我们的框架实现了具有竞争力的mAP性能（94.1%对比94.2%），同时资源成本显著低于现有最先进方法，特别是在模型参数（1.0M对比22.5M，约23倍）和浮点运算次数（FLOPs）（0.6G对比2.6G，约4倍）。此外，我们的框架在Columbia数据集上的表现也很好，显示出良好的鲁棒性。代码和模型权重可在以下链接获取：https://github.com/Junhua-Liao/Light-ASD。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供