YFCC100M 雅虎知识共享影像数据集

YFCC 100M 是一个包含 1 亿个媒体对象的影像数据集,有 9920 万张图像,80 万个视频,数据均可共享。数据集中的每个媒体对象都有多个元数据表示,比如 Flicker 标识符、所有者姓名、相机、标题、标签、地理位置、媒体源等。 该数据集还提供了从 2004 年 Fli…

TGIF 动图数据集

TGIF 全称 Tumblr GIF,是一个关于 GIF 图及其文字描述的数据集。该数据集中的 GIF 图源自 Tumblr,且提供了对应 URL。训练和验证部分,每个 GIF 有一个描述性句子;测试部分每个 GIF 有三个句子。该数据集可用于评估 GIF 或视频描述技术。 数据…

TVSum 视频摘要数据集

TVSum 全称 Title-based Video Summarization Dataset,是验证视频摘要技术的一个基准。 该数据集包含 50 个不同类型的视频(例如,新闻、操作指南、纪录片、Vlog、自拍),以及 1,000 个通过众包获得的对拍摄高度重要性评分的标注(每…

Text Classification Datasets 文本分类数据集

Text Classification Dataset 是一个文本分类数据集,其包含 8 个可用于文本分类的子数据集,样本大小从 120K 到 3.6M 不等,问题范围从 2 级到 14 级。 该数据集的来源主要有 DBPedia、Amazon、Yelp、Yahoo、Sogou …