DiDeMo 全称 Distinct Describable Moments,可用于在给定自然语言描述的情况下,对视频中的事件进行时间定位。数据集中的视频是从 Flickr 收集的,每个视频都被剪辑成最多 30 秒的片段。数据集中的视频被分为每 5 秒钟一个片段,以降低标注的复杂性。
该数据集分为训练集、验证集和测试集,分别包含 8,395 、 1,065 和 1,004 个视频。该数据集共包含 26,892 个时刻,一个时刻可能与多个标注者的描述相关。 DiDeMo 数据集中的描述很详细,包含摄像机的移动、时间转换指标和活动。此外,该数据集中的描述是经过验证的,因此每个描述都是指一个单一的时刻。
做种 1
下载中 1
已完成 437
总下载 826