Google Audioset 是手动注释音频事件的大型数据集,旨在为音频事件检测提供一个通用实际的评估任务,以及全面的声音事件词汇的起点。
它包含了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人标记的 10 秒声音片段,该数据集涵盖人类和动物声音、乐器和流派以及常见的日常环境声音。
该数据集由 Google Machine Perception Research 于 2017 年发布。
相关论文:《Audio Set: An ontology and human-labeled dataset for audio events》