HyperAI超神经

* 该数据集支持在线使用，点击此处跳转。

SA-V 数据集是由 Meta 公司于 2024 年构建的一个大规模视频分割数据集，它被用于训练和评估 Meta Segment Anything Model 2（简称 SAM 2）。这个数据集的规模和多样性都非常大，包含了约 51,000 个真实世界视频和 643K 个时空遮罩（masklets）注释，在大小上比其他同类数据集大 50 倍左右。

SA-V 数据集的构建采用了一个迭代过程，其中标注员使用 SAM 2 模型交互式地在视频中标注 masklet，然后将这些新标注的数据用于更新和训练 SAM 2 模型。这种方法不仅提高了数据收集的效率，而且有助于建立一个更加精确和多样化的数据集

此外，SA-V 数据集的视频来源于 47 个不同的国家，覆盖了多样的地理和真实世界场景，这为模型提供了丰富的视觉内容以进行学习和泛化。数据集中的标注不仅包括整个对象，还包括对象的部分，如人的帽子等，以及在对象被遮挡、消失和重新出现时的挑战性实例。

这个数据集的发布，加上 SAM 2 模型的开源，为研究者和开发者提供了强大的工具，以探索视频编辑、混合现实、机器人技术、自动驾驶和视频内容理解等多个领域的新应用和创新。

数据集结构

– 训练分割：视频采用 MP4 编码，每个文件约 8G，sav_000.tar – sav_055.tar 。 Masklet 采用 COCO 游程编码 (RLE) 格式（列表的列表），其中外部列表位于视频帧之上。

– Val/Test 分割：视频帧为 JPEG 格式，每个文件约 16G，sav_val.tar 和 sav_test.tar 。 Masklets 为 PNG 格式。

SA-V：Meta 构建最大的视频分割数据集

* 该数据集支持在线使用，点击此处跳转。

数据集结构