9 天前

NTT DCASE2020挑战赛任务6系统:基于关键词与句子长度估计的自动化音频描述生成

Yuma Koizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino
NTT DCASE2020挑战赛任务6系统:基于关键词与句子长度估计的自动化音频描述生成
摘要

本技术报告介绍了参与2020年音频场景与事件检测与分类(DCASE 2020)挑战赛任务6——自动音频描述生成(automated audio captioning)的系统方案。我们的提交重点针对自动音频描述生成中的两个不确定性问题:词汇选择的不确定性与句子长度的不确定性。通过多任务学习框架,我们同时对主描述生成任务及子不确定性问题进行建模,实现关键词预测与句子长度估计。我们在开发测试数据集上对简化版模型进行了测试,结果表明,本模型的SPIDEr得分为20.7,显著优于基线系统的5.4分。