AudioSetCaps 音频字幕数据集

日期

24 天前

大小

120.7 MB

机构

Nanyang Technological University (南洋理工大学)
University of Surrey

发布地址

github.com

许可协议

CC BY 4.0

该数据集是由西北工业大学、西安联丰声学技术有限公司、南洋理工大学、萨里大学 (University of Surrey) 和中国科学院声学研究所的研究人员于 2024 年发布的,相关论文成果为「AudioSetCaps: Enriched Audio Captioning Dataset Generation Using Large Audio Language Models」,已被 NeurIPS 24 接受。

AudioSetCaps 是一个音频-字幕数据集,包含 6,117,099 个 10 秒的音频文件。每个音频文件都附有一个描述性标题,还附有 3 个 Q&A 对作为生成最终标题的元数据(共 18,414,789 对 Q&A 数据)。

它通过使用大型音频和语言模型的自动化生成管道创建,数据来源于 AudioSet 、 YouTube-8M 和 VGGSound 这 3 个音频数据集。

AudioSetCaps.torrent

做种 1

下载中 1

已完成 5

总下载 14

  • AudioSetCaps/
    • README.md
      1.63 KB
    • README.txt
      3.27 KB
      • data/
        • AudioSetCaps.zip
          120.7 MB