19 天前
EnCLAP:结合神经音频编解码器与音视频-文本联合嵌入的自动化音频描述生成
Jaeyeon Kim, Jaeyoon Jung, Jinjoo Lee, Sang Hoon Woo

摘要
我们提出了一种名为EnCLAP的新框架,用于自动化音频字幕生成。EnCLAP采用两种声学表征模型——EnCodec与CLAP,以及一个预训练语言模型BART。此外,我们引入了一种新的训练目标——掩码编码建模(masked codec modeling),以增强预训练语言模型对声学信息的感知能力。在AudioCaps和Clotho数据集上的实验结果表明,我们的模型性能优于基线模型。源代码将公开于 https://github.com/jaeyeonkim99/EnCLAP。在线演示可通过 Hugging Face 空间访问:https://huggingface.co/spaces/enclap-team/enclap。