SA-V:Meta 构建最大的视频分割数据集

日期

5 个月前

大小

441.6 GB

机构

Meta

发布地址

github.com

许可协议

CC BY 4.0

特色图像

* 该数据集支持在线使用,点击此处跳转

SA-V 数据集是由 Meta 公司于 2024 年构建的一个大规模视频分割数据集,它被用于训练和评估 Meta Segment Anything Model 2(简称 SAM 2)。这个数据集的规模和多样性都非常大,包含了约 51,000 个真实世界视频和 643K 个时空遮罩(masklets)注释,在大小上比其他同类数据集大 50 倍左右。

SA-V 数据集的构建采用了一个迭代过程,其中标注员使用 SAM 2 模型交互式地在视频中标注 masklet,然后将这些新标注的数据用于更新和训练 SAM 2 模型。这种方法不仅提高了数据收集的效率,而且有助于建立一个更加精确和多样化的数据集

此外,SA-V 数据集的视频来源于 47 个不同的国家,覆盖了多样的地理和真实世界场景,这为模型提供了丰富的视觉内容以进行学习和泛化。数据集中的标注不仅包括整个对象,还包括对象的部分,如人的帽子等,以及在对象被遮挡、消失和重新出现时的挑战性实例。

这个数据集的发布,加上 SAM 2 模型的开源,为研究者和开发者提供了强大的工具,以探索视频编辑、混合现实、机器人技术、自动驾驶和视频内容理解等多个领域的新应用和创新。

数据集结构

– 训练分割:视频采用 MP4 编码,每个文件约 8G,sav_000.tar – sav_055.tar 。 Masklet 采用 COCO 游程编码 (RLE) 格式(列表的列表),其中外部列表​​位于视频帧之上。

– Val/Test 分割:视频帧为 JPEG 格式,每个文件约 16G,sav_val.tar 和 sav_test.tar 。 Masklets 为 PNG 格式。

SA-VDataset.torrent

做种 1

下载中 2

已完成 195

总下载 465

  • SA-VDataset/
    • README.md
      2.38 KB
    • README.txt
      4.75 KB
      • data/
        • SA-V.zip
          441.6 GB