6 个月前

音频和语音处理

Zhen Yang Xiang Li Dong Liu Qichen Han∗ Weiqiang Yuan ∗

摘要

本技术报告介绍了参与2021年声学场景与事件检测与分类（DCASE 2021）挑战赛任务6——自动化音频字幕生成的系统方案。我们采用编码器-解码器建模范式实现音频理解与字幕生成。本方案重点解决自动化音频字幕生成中的两个关键问题：数据不足与词汇选择的不确定性。由于具备高质量标注字幕的音频数据有限，我们通过启发式方法从网络上收集了大规模弱标注数据集。随后，利用该数据集对编码器-解码器模型进行预训练，并在Clotho数据集上进行微调。为缓解词汇选择的不确定性问题，我们在解码阶段引入了来自相似音频字幕中提取的关键字，以及预训练模型生成的音频事件标签，以指导词汇的生成过程。我们在开发测试数据集上对提交结果进行了评估。最佳方案在SPIDEr指标上取得了31.8分，而基线系统的得分仅为5.4分。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

Zhen Yang Xiang Li Dong Liu Qichen Han∗ Weiqiang Yuan ∗

摘要

本技术报告介绍了参与2021年声学场景与事件检测与分类（DCASE 2021）挑战赛任务6——自动化音频字幕生成的系统方案。我们采用编码器-解码器建模范式实现音频理解与字幕生成。本方案重点解决自动化音频字幕生成中的两个关键问题：数据不足与词汇选择的不确定性。由于具备高质量标注字幕的音频数据有限，我们通过启发式方法从网络上收集了大规模弱标注数据集。随后，利用该数据集对编码器-解码器模型进行预训练，并在Clotho数据集上进行微调。为缓解词汇选择的不确定性问题，我们在解码阶段引入了来自相似音频字幕中提取的关键字，以及预训练模型生成的音频事件标签，以指导词汇的生成过程。我们在开发测试数据集上对提交结果进行了评估。最佳方案在SPIDEr指标上取得了31.8分，而基线系统的得分仅为5.4分。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供