6 个月前

音频和语音处理

计算机视觉

Yuan Gong Yu-An Chung James Glass

摘要

音频标记（Audio Tagging）是一个活跃的研究领域，具有广泛的应用前景。自AudioSet数据集发布以来，模型性能取得了显著进步，这主要得益于新型模型架构和注意力模块的不断发展。然而，我们发现，对于基于AudioSet构建音频标记模型而言，合适的训练技术同样至关重要，但这一方面尚未得到应有的关注。为填补这一空白，本文提出PSLA——一套系统化的训练技术集合，能够显著提升模型精度，包括ImageNet预训练、平衡采样、数据增强、标签增强、模型集成及其设计选择。通过结合这些技术训练EfficientNet模型，我们获得了一个单模型（参数量为1360万）和一个集成模型，其在AudioSet上的平均精度均值（mAP）分别达到0.444和0.474，显著优于此前最佳系统（0.439，参数量8100万）。此外，我们的模型在FSD50K数据集上也取得了新的最先进mAP成绩，达到0.567。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

计算机视觉

Yuan Gong Yu-An Chung James Glass

摘要

音频标记（Audio Tagging）是一个活跃的研究领域，具有广泛的应用前景。自AudioSet数据集发布以来，模型性能取得了显著进步，这主要得益于新型模型架构和注意力模块的不断发展。然而，我们发现，对于基于AudioSet构建音频标记模型而言，合适的训练技术同样至关重要，但这一方面尚未得到应有的关注。为填补这一空白，本文提出PSLA——一套系统化的训练技术集合，能够显著提升模型精度，包括ImageNet预训练、平衡采样、数据增强、标签增强、模型集成及其设计选择。通过结合这些技术训练EfficientNet模型，我们获得了一个单模型（参数量为1360万）和一个集成模型，其在AudioSet上的平均精度均值（mAP）分别达到0.444和0.474，显著优于此前最佳系统（0.439，参数量8100万）。此外，我们的模型在FSD50K数据集上也取得了新的最先进mAP成绩，达到0.567。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供