自从 2016 年美国大选之后,各社交平台因虚假消息误导选民而备受批评。近几年来,Twitter 在消除虚假信息上投入了大力气,最近晒出了今年的成果。 全球可能…
社交
GOT-10k 数据集
GOT-10k 是一个基于 WordNet 的大型目标跟踪数据集,广泛覆盖了 560 类户外常见的移动物体,物体的边界框全部由人工标注,边界框数量超过 150 万,实现了深度跟踪器的统一训练和稳定评估。 该数据集具有以下特点:规模宏大(Large-Scale)、通用类(Gener…
The Unsplash Lite Dataset 图片检索数据集精简版
Unsplash 是世界上最大的图片摄影网站之一,由全世界 20 多万摄影师参与贡献了数百万张高清优质的摄影作品。 Unsplash 在 2016 年开放了图片 API,截止目前已经达到了每月百万次调用,以及各种不同的使用场景。Unsplash 数据集于 2020 年八月宣布开放…
Place365-Standard 图像分类数据集
Place365-Standard数据集是由MIT发布,帮助场景分类的数据集。该数据集包括180万张训练照片来自于365类场景,被用以卷积神经网络加以训练。该数据集应用范围广泛,数据庞大,对于场景分类型模型具有强大的帮助性
Visual Genome 图片语义分割数据集
Visual Genome数据集是机器视觉类数据集,包含108077张图片,540万个区域描述,170万份可视化问答数据,380万个目标实例,280万个属性以及230万个关系信息。该数据集是由斯坦福大学、Yahoo、丰田等共同合作完成,致力于将图片信息与语言紧密连接。
SCUT-FBP5500 面部数据集
SCUT-FBP5500数据集发布于2017年,包含5500个正面人脸,年龄分布位15岁至60岁。人脸照片包括2000亚洲女性,2000亚洲男性,750高加索男性和750高加索女性。同时,数据来自于数据堂等。每张图由60人进行评分,共5个等级。这60人的年龄分布为18到27岁,均…
Social-Spammer 垃圾邮件数据集
Social-Spammer-Heterogeneous数据集是从名为Tagged的社交软件上收录的,它包含五百六十万的用户和八千五百万用户间的联系。数据集中的每个用户包含四个特征和一个手动输入用以鉴定是否为垃圾账号的标签分类。数据集中的每个联系则代表了两个用户间的互动,且包含一…
HAKE-HICO 语义分割数据集
HAKE-HICO是由上海交通大学发布,基于HICO数据集进行的改良版。该数据集的图像文件使用了HICO数据集中原始图片文件,在此基础上对于每幅图像的分类注释则与HICO数据集不同,进行了重新编排,包括了部位信息如脚踝、膝盖、手、肩等;动作信息如站立、行走、跳跃等。
Selfie 面部数据集
Selfie数据集包含46836张自拍并标注了36种属性包括性别、年龄、种族、脸型、表情、发色、装饰和其他等等。该数据集最初用于自拍打分的任务,但因为维度广,所以很适合做相关研究。
Goodreads-Books 书籍数据集
该数据集是从Goodreads上获取,包括书名、作者、平均评分、语言、页数、评论数等信息内容。
BioID Face 面部数据
由BioID提供的face dataset包含1521张分辨率为384x286的灰色图片,每张图片皆为23位不同测试者的正脸照。另外,该数据集还提供每张图像的双眼位置信息,用以面部检测等领域的研究。该数据集的图像文件以pgm格式保存,双眼位置信息则以名为.eye的文本信息储存,用…
AVSpeech – 视听语音数据集
AVSpeech is a new, large-scale audio-visual dataset comprising speech video clips with no interfering backgruond noises. The segments are 3-…
Danbooru2018 二次元图床 SFW 子集
收集来自二次元图床 Danbooru 截止 2018 年中所有 SFW 的图像,尺寸为 512px 的子集
TWDNE 二次元头像
TWDNE(This Waifu Does Not Exist)包含 10 万+二次元动漫头像及通过 StyleGAN 训练的模型
PASCAL VOC DATASET
PASCAL VOC DATASET 由 Pascol VOC 项目组于 2012 年发布,其包含往届 PASCAL VOC 挑战赛的成果,同时这项挑战赛也与 2012 年完成最后一届。 PASCAL VOC 大赛是一项世界级计算机视觉挑战赛,该挑战赛由 Mark Evering…