HyperAIHyperAI

Command Palette

Search for a command to run...

DCASE 2021 挑战赛任务6系统:基于弱监督预训练与词选择方法的自动化音频字幕生成

Zhen Yang Xiang Li Dong Liu Qichen Han∗ Weiqiang Yuan ∗

摘要

本技术报告介绍了参与2021年声学场景与事件检测与分类(DCASE 2021)挑战赛任务6——自动化音频字幕生成的系统方案。我们采用编码器-解码器建模范式实现音频理解与字幕生成。本方案重点解决自动化音频字幕生成中的两个关键问题:数据不足与词汇选择的不确定性。由于具备高质量标注字幕的音频数据有限,我们通过启发式方法从网络上收集了大规模弱标注数据集。随后,利用该数据集对编码器-解码器模型进行预训练,并在Clotho数据集上进行微调。为缓解词汇选择的不确定性问题,我们在解码阶段引入了来自相似音频字幕中提取的关键字,以及预训练模型生成的音频事件标签,以指导词汇的生成过程。我们在开发测试数据集上对提交结果进行了评估。最佳方案在SPIDEr指标上取得了31.8分,而基线系统的得分仅为5.4分。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供