8 个月前

音频和语音处理

Andrey Guzhov Federico Raue Jörn Hees Andreas Dengel

摘要

在过去，快速发展的声音分类领域从其他领域的方法应用中受益匪浅。如今，我们观察到一种趋势，即将特定领域的任务和方法融合在一起，这为社区提供了新的杰出模型。在本研究中，我们提出了一种扩展的CLIP模型，该模型除了处理文本和图像外，还能够处理音频。我们提出的模型通过使用AudioSet数据集将ESResNeXt音频模型整合到CLIP框架中。这种组合使得所提出的模型能够在保持CLIP零样本推理能力的同时，执行双模态和单模态分类及查询任务。AudioCLIP在环境声音分类（ESC）任务中取得了新的最先进成果，在UrbanSound8K数据集上达到了90.07%的准确率，在ESC-50数据集上达到了97.15%的准确率，超过了其他方法的表现。此外，它还在同一数据集上的零样本ESC任务中设定了新的基准（分别为68.78%和69.40%）。最后，我们还评估了所提出的模型在跨模态查询方面的性能以及全训练和部分训练对结果的影响。为了便于复现，我们的代码已公开发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

Andrey Guzhov Federico Raue Jörn Hees Andreas Dengel

摘要

在过去，快速发展的声音分类领域从其他领域的方法应用中受益匪浅。如今，我们观察到一种趋势，即将特定领域的任务和方法融合在一起，这为社区提供了新的杰出模型。在本研究中，我们提出了一种扩展的CLIP模型，该模型除了处理文本和图像外，还能够处理音频。我们提出的模型通过使用AudioSet数据集将ESResNeXt音频模型整合到CLIP框架中。这种组合使得所提出的模型能够在保持CLIP零样本推理能力的同时，执行双模态和单模态分类及查询任务。AudioCLIP在环境声音分类（ESC）任务中取得了新的最先进成果，在UrbanSound8K数据集上达到了90.07%的准确率，在ESC-50数据集上达到了97.15%的准确率，超过了其他方法的表现。此外，它还在同一数据集上的零样本ESC任务中设定了新的基准（分别为68.78%和69.40%）。最后，我们还评估了所提出的模型在跨模态查询方面的性能以及全训练和部分训练对结果的影响。为了便于复现，我们的代码已公开发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供