2 个月前
AudioCLIP:扩展CLIP至图像、文本和音频
Guzhov, Andrey ; Raue, Federico ; Hees, Jörn ; Dengel, Andreas

摘要
在过去,快速发展的声音分类领域从其他领域的方法应用中受益匪浅。如今,我们观察到一种趋势,即将特定领域的任务和方法融合在一起,这为社区提供了新的杰出模型。在本研究中,我们提出了一种扩展的CLIP模型,该模型除了处理文本和图像外,还能够处理音频。我们提出的模型通过使用AudioSet数据集将ESResNeXt音频模型整合到CLIP框架中。这种组合使得所提出的模型能够在保持CLIP零样本推理能力的同时,执行双模态和单模态分类及查询任务。AudioCLIP在环境声音分类(ESC)任务中取得了新的最先进成果,在UrbanSound8K数据集上达到了90.07%的准确率,在ESC-50数据集上达到了97.15%的准确率,超过了其他方法的表现。此外,它还在同一数据集上的零样本ESC任务中设定了新的基准(分别为68.78%和69.40%)。最后,我们还评估了所提出的模型在跨模态查询方面的性能以及全训练和部分训练对结果的影响。为了便于复现,我们的代码已公开发布。