6 个月前

摘要

我们提出了一种名为EnCLAP的新框架，用于自动化音频字幕生成。EnCLAP采用两种声学表征模型——EnCodec与CLAP，以及一个预训练语言模型BART。此外，我们引入了一种新的训练目标——掩码编码建模（masked codec modeling），以增强预训练语言模型对声学信息的感知能力。在AudioCaps和Clotho数据集上的实验结果表明，我们的模型性能优于基线模型。源代码将公开于 https://github.com/jaeyeonkim99/EnCLAP。在线演示可通过 Hugging Face 空间访问：https://huggingface.co/spaces/enclap-team/enclap。

源 PDF