7 个月前

卷积神经网络

音频和语音处理

Titouan Parcollet Ying Zhang Mohamed Morchid Chiheb Trabelsi Georges Linares Renato De Mori Yoshua Bengio

摘要

近日，连接时序分类（Connectionist Temporal Classification, CTC）模型与循环神经网络（Recurrent Neural Networks, RNN）或卷积神经网络（Convolutional Neural Networks, CNN）相结合，使得端到端训练语音识别系统变得更加容易。然而，在实值模型中，时间帧组件如梅尔滤波器组能量和从中提取的倒谱系数及其一阶和二阶导数被作为单独的元素进行处理，而一种更为自然的替代方法是将这些组件作为复合实体进行处理。我们提出将这些元素以四元数的形式分组，并使用已建立的四元数代数来处理这些四元数。四元数和四元数神经网络在处理多维输入作为实体、编码内部依赖关系以及用较少的学习参数解决许多任务方面表现出其有效性。本文提出将多个特征视图集成到四元数值卷积神经网络（Quaternion-valued Convolutional Neural Network, QCNN）中，用于与CTC模型结合的序列到序列映射。实验结果表明，使用简单的QCNN在TIMIT语料库上的音素识别实验中取得了有前景的结果。具体而言，QCNN在使用较少学习参数的情况下获得了比基于实值CNN的竞争模型更低的音素错误率（Phoneme Error Rate, PER）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

音频和语音处理

Titouan Parcollet Ying Zhang Mohamed Morchid Chiheb Trabelsi Georges Linares Renato De Mori Yoshua Bengio

摘要

近日，连接时序分类（Connectionist Temporal Classification, CTC）模型与循环神经网络（Recurrent Neural Networks, RNN）或卷积神经网络（Convolutional Neural Networks, CNN）相结合，使得端到端训练语音识别系统变得更加容易。然而，在实值模型中，时间帧组件如梅尔滤波器组能量和从中提取的倒谱系数及其一阶和二阶导数被作为单独的元素进行处理，而一种更为自然的替代方法是将这些组件作为复合实体进行处理。我们提出将这些元素以四元数的形式分组，并使用已建立的四元数代数来处理这些四元数。四元数和四元数神经网络在处理多维输入作为实体、编码内部依赖关系以及用较少的学习参数解决许多任务方面表现出其有效性。本文提出将多个特征视图集成到四元数值卷积神经网络（Quaternion-valued Convolutional Neural Network, QCNN）中，用于与CTC模型结合的序列到序列映射。实验结果表明，使用简单的QCNN在TIMIT语料库上的音素识别实验中取得了有前景的结果。具体而言，QCNN在使用较少学习参数的情况下获得了比基于实值CNN的竞争模型更低的音素错误率（Phoneme Error Rate, PER）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供