9 天前
DCASE 2021 挑战赛任务6系统:基于弱监督预训练与词选择方法的自动化音频字幕生成
{Zhen Yang, Xiang Li, Dong Liu, Qichen Han∗, Weiqiang Yuan ∗}

摘要
本技术报告介绍了参与2021年声学场景与事件检测与分类(DCASE 2021)挑战赛任务6——自动化音频字幕生成的系统方案。我们采用编码器-解码器建模范式实现音频理解与字幕生成。本方案重点解决自动化音频字幕生成中的两个关键问题:数据不足与词汇选择的不确定性。由于具备高质量标注字幕的音频数据有限,我们通过启发式方法从网络上收集了大规模弱标注数据集。随后,利用该数据集对编码器-解码器模型进行预训练,并在Clotho数据集上进行微调。为缓解词汇选择的不确定性问题,我们在解码阶段引入了来自相似音频字幕中提取的关键字,以及预训练模型生成的音频事件标签,以指导词汇的生成过程。我们在开发测试数据集上对提交结果进行了评估。最佳方案在SPIDEr指标上取得了31.8分,而基线系统的得分仅为5.4分。