HyperAI超神经

首页算力平台文档资讯论文教程数据集百科 SOTA LLM 模型天梯 GPU 天梯顶会

中文

HyperAI超神经

AudioSetCaps 音频字幕数据集

日期

1 年前

大小

120.7 MB

机构

发布地址

论文链接

许可协议

CC BY 4.0

标签

数据集下载

加入 Discord 社区

该数据集是由西北工业大学、西安联丰声学技术有限公司、南洋理工大学、萨里大学 (University of Surrey) 和中国科学院声学研究所的研究人员于 2024 年发布的，相关论文成果为「AudioSetCaps: Enriched Audio Captioning Dataset Generation Using Large Audio Language Models」，已被 NeurIPS 24 接受。

AudioSetCaps 是一个音频-字幕数据集，包含 6,117,099 个 10 秒的音频文件。每个音频文件都附有一个描述性标题，还附有 3 个 Q&A 对作为生成最终标题的元数据（共 18,414,789 对 Q&A 数据）。

它通过使用大型音频和语言模型的自动化生成管道创建，数据来源于 AudioSet 、 YouTube-8M 和 VGGSound 这 3 个音频数据集。

AudioSetCaps.torrent

做种 1正在下载 0已完成 104总下载次数 166

AudioSetCaps/
- README.md
  1.63 KB
- README.txt
  3.27 KB

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供