VGG-SS 全称 VGG Sound Source,是关于评估声源定位的视频数据集。该数据集包含 200 多个类别、5000 个视频以及 VGG-Sound 数据集的新标注,比现有数据集大 10 倍。每个视频片段中的可见声源都被边界框明确标注。与 Flickr SoundNet 不同,该数据集的声源定位是基于视频的。
VGG-SS 声源定位数据集
本站暂不支持该数据集下载,如需下载请访问上述「发布地址」进行下载(如可用)
感谢您下载 VGG-SS 声源定位数据集!
本站基于知识共享许可协议,为国内用户提供公开数据集高速下载,仅用于科研与学术交流。
获得数据集更新通知、下载过程发现问题、提供未引入数据集资源等,请关注公众号与我们沟通。
感谢您下载 VGG-SS 声源定位数据集!

相关数据集推荐
LSST_23.5 天文图像数据集
LSST_23.5 天文图像数据集是论文「Galaxy Image Deconvolution for Weak Gravitational Lensing with Unrolled Plug-and-Play ADMM」中使用的实验数据集,由研究人员借助 Galsim 及 C…

ImageNet 10 图像识别数据集
ImageNet 是目前世界上最大的图像识别数据库,主要用于机器视觉领域的图像分类和目标检测。数据集根据 WordNet 层次结构组织,其中每个节点(也称为类别)由数百甚至数千张图像组成,每个节点有平均超过 500 个图像。该数据集共包含 2.2 万个图像类别,约 1500 万张…

VGG-Face2 人脸识别数据集
VGG-Face2 Dataset 是一个人脸图片数据集,包含共计 9131 个人的面部数据,图像均来自 Google 的图片搜索。数据集中的人在姿势、年龄、种族和职业方面有很大差异。 该数据集由牛津大学的工程科学系视觉几何组于 2015 年发布,相关论文有《Deep Face …