该数据集是由西北工业大学、西安联丰声学技术有限公司、南洋理工大学、萨里大学 (University of Surrey) 和中国科学院声学研究所的研究人员于 2024 年发布的,相关论文成果为「AudioSetCaps: Enriched Audio Captioning Dataset Generation Using Large Audio Language Models」,已被 NeurIPS 24 接受。
AudioSetCaps 是一个音频-字幕数据集,包含 6,117,099 个 10 秒的音频文件。每个音频文件都附有一个描述性标题,还附有 3 个 Q&A 对作为生成最终标题的元数据(共 18,414,789 对 Q&A 数据)。
它通过使用大型音频和语言模型的自动化生成管道创建,数据来源于 AudioSet 、 YouTube-8M 和 VGGSound 这 3 个音频数据集。
做种 1
下载中 1
已完成 5
总下载 14