7 个月前

音频和语音处理

卷积神经网络

Vinayak Abrol Aryan Chaudhary

摘要

在智能边缘设备上，本地化关键词识别（On-device Keyword Spotting, KWS）是实现唤醒功能与用户交互的关键组件。现有的轻量级模型主要基于一维（1D）和二维（2D）卷积神经网络，其中2D卷积在捕捉特征不变性方面表现更优，而1D卷积则能实现更快的推理速度。本文探索了四元数神经网络（Quaternion Neural Models）作为KWS任务中高效声学建模的一种替代方案。四元数模型能够将输入特征的多个维度嵌入四元数空间中，从而在保持性能的同时，显著减小模型规模并提升效率。我们在Google Command V2数据集上验证了这一方法，通过构建主流KWS模型的四元数版本，结果表明其性能可与现有模型相媲美。此外，本文还对四元数网络的学习行为进行了深入分析，进一步论证了其在其他语音与音频任务中的应用潜力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

音频和语音处理

卷积神经网络

Vinayak Abrol Aryan Chaudhary

摘要

在智能边缘设备上，本地化关键词识别（On-device Keyword Spotting, KWS）是实现唤醒功能与用户交互的关键组件。现有的轻量级模型主要基于一维（1D）和二维（2D）卷积神经网络，其中2D卷积在捕捉特征不变性方面表现更优，而1D卷积则能实现更快的推理速度。本文探索了四元数神经网络（Quaternion Neural Models）作为KWS任务中高效声学建模的一种替代方案。四元数模型能够将输入特征的多个维度嵌入四元数空间中，从而在保持性能的同时，显著减小模型规模并提升效率。我们在Google Command V2数据集上验证了这一方法，通过构建主流KWS模型的四元数版本，结果表明其性能可与现有模型相媲美。此外，本文还对四元数网络的学习行为进行了深入分析，进一步论证了其在其他语音与音频任务中的应用潜力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供