6 个月前

音频和语音处理

卷积神经网络

Michał Kośmider

摘要

当机器学习算法在有限设备采集的音频数据上进行训练时，往往难以有效泛化到使用其他频率响应特性不同的设备所录制的音频样本。本文提出了一种相对简单的方法来解决这一问题，并介绍了该方法的两种变体：第一种方法需要来自多个设备的对齐样本，第二种方法则减轻了这一限制。该方法适用于音频信号在时域和频域中的各种表示形式。此外，本文还分析了该方法与标准化（standardization）及倒谱均值减除（Cepstral Mean Subtraction, CMS）之间的关联。即使在仅有少量训练样本的情况下，该方法依然表现出良好的有效性。该方法是在“音频场景与事件检测与分类”（Detection and Classification of Acoustic Scenes and Events, DCASE）2019挑战赛中开发的，并在录音设备不匹配的测试场景中取得了75%的准确率，荣获第一名。实验的源代码已公开发布于网络。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

卷积神经网络

Michał Kośmider

摘要

当机器学习算法在有限设备采集的音频数据上进行训练时，往往难以有效泛化到使用其他频率响应特性不同的设备所录制的音频样本。本文提出了一种相对简单的方法来解决这一问题，并介绍了该方法的两种变体：第一种方法需要来自多个设备的对齐样本，第二种方法则减轻了这一限制。该方法适用于音频信号在时域和频域中的各种表示形式。此外，本文还分析了该方法与标准化（standardization）及倒谱均值减除（Cepstral Mean Subtraction, CMS）之间的关联。即使在仅有少量训练样本的情况下，该方法依然表现出良好的有效性。该方法是在“音频场景与事件检测与分类”（Detection and Classification of Acoustic Scenes and Events, DCASE）2019挑战赛中开发的，并在录音设备不匹配的测试场景中取得了75%的准确率，荣获第一名。实验的源代码已公开发布于网络。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供