总下载排行
-
ImageNet 10 图像识别数据集11997 次ImageNet 是目前世界上最大的图像识别数据库,主要用于机器视觉领域的图像分类和目标检测。数据集根据 WordNet 层次结构组织,其中每个节点(也称为类别)由数百甚至数千张图像组成,每个节点有平均超过 500 个图像。该数据集共包含 2.2 万个图像类别,约 1500 万张…
-
OpenMantra 漫画机器翻译评估数据集6504 次该数据集是一个针对日文漫画的机器翻译评估数据集,包含五种不同风格(幻想、爱情、战斗、悬疑、生活)的漫画,数据集中共包含 1593 个句子,848 个场景画面和 214 页漫画,由东京大学 Mantra 团队发布。 数据格式:带注释的 JSON 文件和原始图像
-
UCAS-AOD 遥感影像数据集5222 次UCAS-AOD Dataset 是一个遥感影像数据集,其包含汽车和飞机两类目标以及背景负样本。 该数据集由国科大于 2014 年首次发布,并于 2015 年补充,相关论文有《Orientation Robust Object Detection in Aerial Images…
-
VGG-Face2 人脸识别数据集5006 次VGG-Face2 Dataset 是一个人脸图片数据集,包含共计 9131 个人的面部数据,图像均来自 Google 的图片搜索。数据集中的人在姿势、年龄、种族和职业方面有很大差异。 该数据集由牛津大学的工程科学系视觉几何组于 2015 年发布,相关论文有《Deep Face …
-
DOTA 航拍图像数据集4793 次DOTA 全称为 A Large-scale Dataset for Object DeTection in Aerial Images,是一个包含 2,806 张航拍图的图像数据集,被用于在航拍图像中进行目标检测,发现和评估图像中的物体。这些图像来源包含不同传感器和平台。每张图…
-
MS-Celeb-1M 名人图片数据集3872 次MS - Celeb - 1M Dataset 是由全世界 100 万位名人图片组成的数据集,其主要用于身份鉴定研究,训练集通过收集名单中流行程度在前 10 万的名人,然后利用搜索引擎为每个名人提供约 100 张图像,进而产生 1000 万张网络图像。 该数据集由微软于 2016…
-
NWPU Data Set 遥感影像数据集3730 次NWPU Dataset 是一个遥感影像数据集,其中 NWPU-RESISC45 Dataset 是由西北工业大学创建的遥感图像场景分类可用基准,该数据集包含像素大小为 256*256 共计 31500 张图像,涵盖 45 个场景类别,其中每个类别有 700 张图像。 这 45 …
-
AID Data Set 遥感影像数据集3570 次AID Dataset 是一个遥感影像数据集,其包含 30 个类别的场景图像,其中每个类别有约 220 - 420 张,整体共计 10000 张,其中每张像素大小约为 600*600。 该数据集由华中科技大学和武汉大学于 2017 年发布。
-
NWPU VHR-10 地理空间物体检测遥感数据集3414 次NWPU VHR-10 Dataset 是一个用于空间物体检测的 10 级地理遥感数据集,其拥有 650 张包含目标的图像和 150 张背景图像,共计 800 张,目标种类包括飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁和汽车共计 10 个类别。 该数据集由西北工…
-
The ORL Database of Faces 人脸数据集3156 次ORL Dataset 是剑桥大学 AT&T 实验室制作的人脸数据集,其包含从 1992 年 4 月到 1994 年 4 月期间实验室成员的人脸图像。 该数据集的图像分为 40 个不同主题,其中每个主题包含 10 幅图像。
-
MVTec-AD 工业检测数据集3092 次MVTec-AD数据集是用于对异常检测方法进行基准测试的数据集,重点是工业检测。 它包含超过5000个高分辨率图像,分为十五个不同的对象和纹理类别。 每个类别包括一组无缺陷的训练图像和具有各种缺陷的图像的测试集以及没有缺陷的图像
-
Inria Aerial Image Labeling Dataset 遥感图像数据集3031 次Inria Aerial Image Labeling Dataset 是一个用于城市建筑物检测的遥感图像数据集,其标记被分为建筑和非建筑两种,主要用于语义分割。 该数据集由 Inria 于 2017 年发布,相关论文有《Can Semantic Labeling Methods…
-
xBD 自然灾害图像数据集2975 次xBD 数据集是迄今为止第一个建筑破坏评估数据集,是带注释的高分辨率卫星图像的规模最大、质量最高的公共数据集之一。 该数据集包含 22068 张图像,均是 1024*1024 的高分辨率卫星遥感图像,标记有 19 种不同的事件,包括地震,洪…
-
KITTI 计算机视觉算法评测数据集2970 次KITTI 是一套计算机视觉算法评测数据集,其主要用于自动驾驶场景下的相关测试,评测种类涵盖立体图像、光流、视觉测距、3D 物体检测和 3D 追踪等。KITTI 包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像有最多 15 辆车和 30 个行人,并且拥有不同程度的遮挡和…
-
UC Merced Land-Use Data Set 土地利用图像遥感数据集2957 次UC Merced Land-Use Dataset 是一个用于研究的 21 级土地利用图像遥感数据集,共拥有 100 类图像,均提取自 USGS National Map Urban Area Imagery 系列,其被用于全国各地的城市地区。此数据集公共领域图像的像素分辨率为…
-
Set5,Set14 低复杂度单图像超分辨率数据集2794 次Set5,Set14 Dataset 是基于非负邻域嵌入的低复杂度单图像超分辨率的数据集,该训练集被用于单幅图像超分辨率重构,即根据低分辨率图像重构出高分辨率图像以获取更多的细节信息。 这项技术已被广泛应用于计算机视觉与图形学、医学成像、安全监控等领域。 该数据集由比利埃大学、法…
-
Oxford 102 Flowers 花卉图片数据集2718 次Oxford 102 Flowers Dataset 是一个花卉集合数据集,主要用于图像分类,它分为 102 个类别共计 102 种花,其中每个类别包含 40 到 258 张图像。 该数据集由牛津大学工程科学系于 2008 年发布,相关论文有《Automated flower c…
-
WHU-RS19 Data Set 遥感影像数据集2711 次WHU-RS19 Dataset 是一个遥感影像数据集,其包含 19 个类别的场景影像共计 1005 张,其中每个类别有 50 张。 该数据集由武汉大学于 2011 年发布,相关论文有《Satellite Image Classification via Two-layer Sp…
-
UCF101 人类动作视频数据2690 次UCF-101 是从 YouTube 收集的具有 101 个动作类别的数据集,它是具有 50 个动作类别数据集 UCF-50 的扩展。 UCF-10 数据集具有 101 个动作类别,共计 13320 个视频,其在动作方面提供多样性,并且存在以相机运动、物体外观、物体比例、姿势等方…
-
Spambase 垃圾邮件数据集2640 次Spambase Dataset 是一个垃圾邮件数据集,其包含 57 个属性和 4601 个实例,该数据集主要用于垃圾邮件的识别分类,其中垃圾邮件的资源均来自于邮件管理员和提交垃圾邮件的个人,其可被用于构建垃圾邮件过滤器。 该数据集由惠普实验室于 1999 年 7 月发布,主要发…
-
ModelNet 三维点云数据集2627 次ModelNet 数据集共有 662 种目标分类,127915 个 CAD 模型,以及 10 类标记过方向的数据,旨在为计算机视觉、计算机图形学、机器人和认知科学的研究人员提供全面的物体 3D 模型。 该数据集包含了三个子集: ModelNet10 为 10 个标记朝向的子集数据…
-
SynthText 自然场景图像数据集2575 次SynthText 数据集由包含单词的自然场景图像组成,其主要运用于自然场景中的文本检测,该数据集由 80 万个图像组成,大约有 800 万个合成单词实例。 每个文本实例均使用文本字符串、字级和字符级边界框进行注释。 SynthText 数据集由牛津大学工程科学系视觉几何组的 G…
-
RSOD-Dataset 物体检测数据集2541 次RSOD Dataset 是用于遥感图像中物体检测的数据集,其包含飞机、操场、立交桥和油桶四类目标,数量分别为:446 张图 —— 4993 架飞机,189 张图 —— 191 个操场,176 张图 —— 180 座立交桥,165 张图 —— 1586 个油桶。 该数据集由武汉大…
-
CEW 闭眼人脸数据集2512 次CEW (Closed eyes in the wild)闭眼数据集由南京航空航天大学提供,包含了2423个测试者睁眼与闭眼状态的照片,照片的差异化体现于测试者个体的差异以及各种环境的变化,如光照、模糊度、遮挡等因素。该数据集可用作于眼睛检测等任务的研究,具有挑战性
-
Brown Corpus 布朗语料库2487 次布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸文本、书籍以及政府文件,包含 1,014,312 个单词的它主要用于语言建模。 原始语料库包含手动注释的句子、标记边界和单词类注释,转换的语料库则包含基于布朗语料库 TEI / XML 版本重建的完整文本,并通过 OLiA…
-
RSSCN7 Data Set 遥感图像数据集2463 次RSSCN7 Dataset 包含 2800 幅遥感图像,这些图像来自于 7 个典型的场景类别 —— 草地、森林、农田、停车场、住宅区、工业区和河湖,其中每个类别包含 400 张图像,分别基于 4 个不同的尺度进行采样。 该数据集中每张图像的像素大小为 400*400,场景图像的…
-
THCHS30 中文语音数据集2458 次THCHS30是由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库,可以用于中文语音识别系统的开发。该数据集语音数据是在安静的办公室环境下录取的,总时长超过30个小时。采样频率16kHz,采样大小16bits。
-
INRIA Person Dataset 行人检测数据集2447 次INRIA Dataset 是一个行人检测数据集,其图片库被分为只有车、只有人、有车有人和无车无人四个类别,其中正样本为 PNG 格式,负样本为 JPG 格式,该数据集包含具有相应注释文件的原始图像和标准化格式图像两类。 INRIA Dataset 由 INRIA 于 2005 …
-
Dataset-UAV-123 视频数据集2381 次Dataset-UAV-123 是由低空无人机捕获视频组成的数据集,这与 OTB50、VOT2014 等主流跟踪数据集中的视频存在本质区别,该数据集的子集被用于长期空中跟踪,其包含共计 123 个视频序列以及超过 110k 帧,它也是 ALOV 300++ 之后的第二大对象跟踪数…
-
Caltech-UCSD Birds-200-2011 鸟类数据集2342 次Caltech-UCSD Birds-200-2011 Dataset 是用于图像分类的鸟类数据集,它是 CUB-200[7] 的扩展版本,涵盖 200 种鸟类共计 11,788 张图片,相较于前版,它每个类别的图像数量增加了一倍,并增加新的部件以用于本地化注释,并且所有图像均使…
近期热门资源
-
ImageNet 10 图像识别数据集11997 次ImageNet 是目前世界上最大的图像识别数据库,主要用于机器视觉领域的图像分类和目标检测。数据集根据 WordNet 层次结构组织,其中每个节点(也称为类别)由数百甚至数千张图像组成,每个节点有平均超过 500 个图像。该数据集共包含 2.2 万个图像类别,约 1500 万张…
-
VGG-Face2 人脸识别数据集5006 次VGG-Face2 Dataset 是一个人脸图片数据集,包含共计 9131 个人的面部数据,图像均来自 Google 的图片搜索。数据集中的人在姿势、年龄、种族和职业方面有很大差异。 该数据集由牛津大学的工程科学系视觉几何组于 2015 年发布,相关论文有《Deep Face …
-
DOTA 航拍图像数据集4793 次DOTA 全称为 A Large-scale Dataset for Object DeTection in Aerial Images,是一个包含 2,806 张航拍图的图像数据集,被用于在航拍图像中进行目标检测,发现和评估图像中的物体。这些图像来源包含不同传感器和平台。每张图…
-
AVSpeech – 视听语音数据集1744 次AVSpeech是一个新的、大规模的视听数据集,包括没有干扰的背景噪音的语音视频片段。这些片段的长度为 3-10 秒,在每个片段中,原声带中的听到的声音,属于视频中可看见的唯一在说话的人。 该数据集包含大约 4700 小时的视频片段,来自 29 万个 YouTube 视频,涵盖了…
-
BDD100K 视频数据集(分卷版本)1845 次BDD Dataset 是一个视频数据集,其包含的 100,000 个高清视频序列时长超过 1100 小时,涵盖不同时间、不同天气条件和驾驶场景,视频序列中还包括 GPS 位置、IMU 数据和时间戳。 其中道路目标检测是为公共汽车、交通灯、交通标志、人、自行车、卡车、摩托车、汽车…
-
ShapeNetCore V1+V2 三维模型数据集620 次ShapeNetCore 是 ShapeNet 数据集的一个子集,包括独立干净的 3D 模型,以及人工验证的类别和对齐标注。该数据集涵盖了 55 个常见的物体类别,约 51,300 个独特的 3D 模型。 PASCAL 3D+ 是一个流行的计算机视觉 3D 基准数据集,其中的 1…
-
Inria Aerial Image Labeling Dataset 遥感图像数据集3031 次Inria Aerial Image Labeling Dataset 是一个用于城市建筑物检测的遥感图像数据集,其标记被分为建筑和非建筑两种,主要用于语义分割。 该数据集由 Inria 于 2017 年发布,相关论文有《Can Semantic Labeling Methods…
-
SemanticKITTI 数据集1949 次SemanticKITTI 是自动驾驶领域的权威数据集,它基于 KITTI 数据集,对 KITTI Vision Odometry Benchmark 中的所有序列都进行了标注,同时还为 LiDAR 360 度范围内采集到的所有目标,进行了密集的逐点注释。 该数据集包含 28 个…
-
MS-Celeb-1M 名人图片数据集3872 次MS - Celeb - 1M Dataset 是由全世界 100 万位名人图片组成的数据集,其主要用于身份鉴定研究,训练集通过收集名单中流行程度在前 10 万的名人,然后利用搜索引擎为每个名人提供约 100 张图像,进而产生 1000 万张网络图像。 该数据集由微软于 2016…
-
LSUN 20 Object Categories 大型图片数据集1097 次LSUN 20 Object Categories Dataset 是一个大规模图像数据集,其基于人类在循环中进行深度学习的构建,其包含 20 个对象类别共计约 100 万张标记图像。 该数据集由加州大学伯克利分校等于 2015 年发布,主要发布人有 Fisher Yu、Pete…
-
ShanghaiTech 人群计数数据集1282 次ShanghaiTech 是一个大规模人群密集计数数据集,由上海科技大学在 2016 年发布,共计包括 1198 张人群图像。 该数据集为在 Single Image Crowd Counting via Multi Column Convolutional Neural Net…
-
MPI-INF-3DHP 3D 人体姿态估计数据集397 次MPI-INF-3DHP 是一个由室内与室外场景组成的,3D 人体姿态估计数据集。该数据集由 130 多万帧图像组成,从 14 个摄像角度记录了 8 位参与者的 8 类活动。
-
VERI-Wild 监控图片数据集1737 次VERI-Wild数据集是从一个大型闭路电视监控系统中跨越一个月(30×24h)捕获的,该系统由174个摄像机组成,分布在一个面积超过200平方公里的大型市区。在数据清理和注释之后,该数据集包含40671辆车的416314张车辆照片。此数据集的差异化体现于时间跨度所带来的照明、天…
-
xBD 自然灾害图像数据集2975 次xBD 数据集是迄今为止第一个建筑破坏评估数据集,是带注释的高分辨率卫星图像的规模最大、质量最高的公共数据集之一。 该数据集包含 22068 张图像,均是 1024*1024 的高分辨率卫星遥感图像,标记有 19 种不同的事件,包括地震,洪…
-
GTSRB 交通标志数据集265 次GTSRB 全称 German Traffic Sign Recognition Benchmark,是一个用于交通标志识别的数据集。 该数据集包含 43 类交通标志,分为 39,209 张训练图像和 12,630 张测试图像。这些图像具有不同的光线条件和丰富多样的背景。
-
UD-Chinese-GSD 中文分词数据集863 次UD-Chinese-GSD数据集是中文繁体自然语言处理数据集,用以中文分词等工作的训练,也可用作多语言编译器开发及跨语言研究。
-
ApolloScape 场景解析数据集616 次Apollo Scape 是一个像素级标注的场景解析数据集,来源于阿波罗自动驾驶项目中,其旨在促进自动驾驶方面的创新。 该数据集由百度于 2018 年发布。
-
Sogou news 新闻数据集1683 次Sogou News Dataset 是由 SogouCA 和 SogouCS 新闻语料库构成的数据集,其拥有 5 个类别共计 2,909,551 篇文章,每个类别均包含 90,000 个训练样本和 12,000 个测试样本,并且这些样本均以转换为拼音。
-
FDST 人群计数数据集134 次FDST 全称 Fudan-ShanghaiTech,是一个视频人群计数数据集。该数据集包含了从 13 个不同的场景中的 捕捉的 394,081 个标注标签,共15,000帧。
-
SogouCS 新闻数据集1145 次SogouCS数据集来源于搜狐新闻2012年6月-7月期间国内、国际、体育、社会、娱乐等18个频道的新闻数据,包括url和正文信息
-
OTB-2013 视觉跟踪数据集97 次OTB2013 是目前 OTB2015 视觉追踪基准的早期版本。OTB2013 数据集仅包含 50 个跟踪序列,而目前版本 OTB2015 的基准是 100 个序列。 同时作者还提出了一系列的评估准则。该数据集及评价标准为跟踪算法提供了统一的测试与评估环境,极大地促进了早期视觉跟…
-
EDFace-Celeb-1M 种族多样性面部数据集139 次EDFace-Celeb-1M 一个公开的种族多样性面部数据集,用于一个面部幻觉 (face hallucination) 的基准任务。我们的数据集包括 170 万张照片,覆盖不同国家,具有均衡的种族构成。
-
WikiText Long Term Dependency Language Modeling Dataset 长期依赖语言建模数据集1296 次WikiText 长期依赖语言建模数据集包含 1 亿个英文词汇,其来自于 Wikipedia 优质文章和标杆文章。 该数据集分为 WikiText-2 和 WikiText-103 两个版本,其相较于 PTB 词库规模更为庞大,并且每个词汇还保留相关的原始文章,这适用于需要长时依…
-
MSU 视频超分辨率数据集0 次MSU Video Super Resolution Benchmark 是一个用于视频超分辨率任务的数据集。数据集包含细节修复 (detail restoration) 任务中最复杂的内容:人脸、文本、二维码、车牌号、未显示图案的纹理、小细节。视频包括不同类型的运动以及不同类型…
-
WikiLinks 维基百科链接数据集174 次WikiLinks 维基百科链接数据集是一个将维基百科的全文按段落、短语或段落本身的一部分进行搜索的数据集。该数据集将维基百科上的每个页面视为代表一个实体(或概念或想法),基于从网络搜索中找到的超链接,并使用锚文本作为提及,最终可以提供大规模不需要人工操作的标记数据。 数据集包括…
-
DAQUAR 真实世界图像问答数据集112 次DAQUAR,全称 DAtaset for QUestion Answering on Real-world images,是一个关于图像的人类问答的数据集。该数据集的图像来自于 NYU-Depth v2 数据集,都是关于室内场景的 RGBD 图像,其中 795 张用于训练,65…
-
Stanford Sentiment Treebank 标准情感数据集1536 次Stanford Sentiment Treebank 是一个标准情感数据集,主要用于情感分类,其中每个句子分析树的节点均有细粒度的情感注解。 该数据集由斯坦福大学的 NLP 组发布,其中句子和短语共计 239232 条,相较于忽略单词顺序的大多数情绪预测系统,这套深度学习模型建…
-
iSAID 航空图像实例分割数据集0 次iSAID 是一个用于航空图像中实例分割的大规模数据集。它是第一个用于航空图像中实例分割的基准数据集,结合了实例级物体检测和像素级分割任务。数据集包含 15 个类别中 655,451 个对象实例的 2,806 张高分辨率图像。iSAID 的图像与 DOTA-v1.0 数据集相同,…
-
ModelNet 三维点云数据集2627 次ModelNet 数据集共有 662 种目标分类,127915 个 CAD 模型,以及 10 类标记过方向的数据,旨在为计算机视觉、计算机图形学、机器人和认知科学的研究人员提供全面的物体 3D 模型。 该数据集包含了三个子集: ModelNet10 为 10 个标记朝向的子集数据…
-
LFSD 目标检测数据集135 次LFSD 全称 Light Field Saliency Database,是一个用于显著性检测的光场数据集。 该数据集包含 100 个光场,空间分辨率为 360×360 像素。每一个光场数据包括 5 种图像,分别是 5 维的未解码的原始光场文件、焦点堆栈、全聚焦图像、深度图、显…
数据集尺寸排行
-
A2D2 奥迪自动驾驶数据集2.26 TBA2D2 全称 Audi Autonomous Driving Dataset,是一个奥迪自动驾驶数据集,包含同步图像和 3D点云,以及 3D bounding box、语义分割、实例分割及提取自车辆总线的数据。 数据集包含 41,277 个带有语义分割图像和点云标签的非时序帧,…
-
BDD100K 视频数据集(分卷版本)1.81 TBBDD Dataset 是一个视频数据集,其包含的 100,000 个高清视频序列时长超过 1100 小时,涵盖不同时间、不同天气条件和驾驶场景,视频序列中还包括 GPS 位置、IMU 数据和时间戳。 其中道路目标检测是为公共汽车、交通灯、交通标志、人、自行车、卡车、摩托车、汽车…
-
BDD 视频数据集1.8 TBBDD Dataset 是一个视频数据集,其包含的 100,000 个高清视频序列时长超过 1100 小时,涵盖不同时间、不同天气条件和驾驶场景,视频序列中还包括 GPS 位置、IMU 数据和时间戳。 其中道路目标检测是为公共汽车、交通灯、交通标志、人、自行车、卡车、摩托车、汽车…
-
LSUN 20 Object Categories 大型图片数据集1.69 TBLSUN 20 Object Categories Dataset 是一个大规模图像数据集,其基于人类在循环中进行深度学习的构建,其包含 20 个对象类别共计约 100 万张标记图像。 该数据集由加州大学伯克利分校等于 2015 年发布,主要发布人有 Fisher Yu、Pete…
-
YouTube-8M 带标签视频数据集1.52 TBYouTube - 8M 是一个带标签的大型视频数据集,它由数百万个 YouTube 视频 ID 组成,包含的 3800 多个可视化实体注释均由机器基于词汇表生成,预先计算的特点让其可被用于单硬盘,这也意味着使用单 GPU 在该数据集上训练基线模型成为可能。 同时,数据集的规模和…
-
WebVison 1.0+2.0 图像分类数据集1.26 TBWebVision 数据集是一个大规模的网络图像数据集,包含 240 多万张从 Flickr 网站和 Google Image 搜索中爬取的图像。图像的对应文本信息(如:标题、用户标签或描述)也作为额外的元信息提供。该数据集提供一个包含 5 万张图片(每个类别 50 张)的验证集…
-
ApolloScape 场景解析数据集1.19 TBApollo Scape 是一个像素级标注的场景解析数据集,来源于阿波罗自动驾驶项目中,其旨在促进自动驾驶方面的创新。 该数据集由百度于 2018 年发布。
-
TrackingNet 大规模户外目标跟踪数据集1.04 TBTrackingNet 是一个大规模的目标跟踪数据集,由户外视频组成。该数据集包含 30,643 个视频片段,分为 30,132 个训练视频和 511 个测试视频,平均每个视频有 470,9 帧。 该数据集提供超过 1400 万个密集的边界框标注,涵盖了户外场景下的各种情形,包含…
-
AVSpeech – 视听语音数据集867.36 GBAVSpeech是一个新的、大规模的视听数据集,包括没有干扰的背景噪音的语音视频片段。这些片段的长度为 3-10 秒,在每个片段中,原声带中的听到的声音,属于视频中可看见的唯一在说话的人。 该数据集包含大约 4700 小时的视频片段,来自 29 万个 YouTube 视频,涵盖了…
-
ImageNet 10 图像识别数据集860.55 GBImageNet 是目前世界上最大的图像识别数据库,主要用于机器视觉领域的图像分类和目标检测。数据集根据 WordNet 层次结构组织,其中每个节点(也称为类别)由数百甚至数千张图像组成,每个节点有平均超过 500 个图像。该数据集共包含 2.2 万个图像类别,约 1500 万张…
-
MegaDepth 深度预测数据集819.9 GBMegaDepth 是一个无限制数据源、大容量的深度图像数据集,可用于 single-view 深度预测。该数据集包含从 Flickr 下载的网络图片,涉及 196 个知名景点地标。
-
2D-3D-S 室内空间图像数据集786.99 GB全程 2D-3D-Semantic,是一个大型室内空间图像数据集,涉及的室内面积高达 6,000 平方米,包含超过 70,000 张 RGB 图像,以及相应的深度、表面法线、语义标注、全局 XYZ 图像(所有形式均为规则和 360° 等矩形图像)、相机信息、注册信息、语义标注的 …
-
SYNTHIA 合成图像数据集713 GB这是一个关于虚拟场景的合成图像数据集。 该数据集由来自虚拟城市的 9,400 个多视点照片级真实帧组成,每帧分辨率为 1,280x960,并带有 13 类像素级语义标注,分别为混合场景、天空、建筑物、道路、人行道、围栏、植被、杆、汽车、标志、行人、自行车车手、车道标记。 该数据集…
-
KITTI 计算机视觉算法评测数据集599.02 GBKITTI 是一套计算机视觉算法评测数据集,其主要用于自动驾驶场景下的相关测试,评测种类涵盖立体图像、光流、视觉测距、3D 物体检测和 3D 追踪等。KITTI 包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像有最多 15 辆车和 30 个行人,并且拥有不同程度的遮挡和…
-
Google Landmarks Dataset v2592.7 GBGoogle Landmarks Dataset v2 是用于地标识别和图像恢复实验的数据集,其中包含人造和自然地标的标签注释图像,该版本的数据集包含约 500 万张图像,并分为训练、索引和测试 3 组。
-
Open Images Dataset 图像数据集573.14 GBOpen Images Dataset 包含约 900 万张标注图片,拥有 6000 个类别的标签,平均每张图像有 8 个标签,其分为包含 9,011,219 张图像的训练集、41,620 张图像的验证集和 125,436 张图像的测试集,它比拥有 1000 个类别标签的 Ima…
-
K-Hairstyle 韩国发型数据集530.18 GBK-Hairstyle 是一个大规模的韩国发型数据集,包含 256,679 张高分辨率图像。K-Hairstyle 数据集包含了多种不同的头发属性和头发分割掩码,由韩国专家发型设计师标注。
-
Place365-Challenge-2016 图像分类数据集497.33 GBPlace365-Challenge-2016数据集为Place365-Standard数据集的扩充版,包含了620万张额外的图像照片,训练集中总计共有800万张相片。Place365系列数据集是由MIT发布,帮助场景分类的数据集。该数据集应用范围广泛,数据庞大,对于场景分类型模…
-
MPII 人体姿势估计数据集474.86 GBMPII 是用于评估人体姿势估计的数据集以及相关基准,拥有约 2.5 万张图像并且包含超过 4 万名具有注释关节的人,该数据集利用人类活动的既定分类法系统化收集图像。 总体来看,该数据集涵盖 410 种人类行为且每个图像都提供活动标签,每张图片均来自 YouTube 视频,并提供…
-
CheXpert X 射线胸片数据集449.53 GBCheXpert 全称 Chest eXpert,是一个用于解释 X 射线胸片的大型数据集。 该数据集包括来自 65,240 位患者的 224,316 张含正面和侧面视图的 X 射线胸片,具有不确定性医学标签和放射科医生标注的参考标准评估集,可用于预测来自多视角胸片的 14 种不…
-
FlyingThings3 光流数据集433.65 GBFlyingThings3 是一个用于光流 (optical flow)、视差 (disparity) 和场景流 (scene flow) 评估的合成数据集,主要由沿着 3D 轨迹飞行的日常物体组成,包含了由 ground truth 数据生成的 25,000 个立体帧。 该数据…
-
NYU Depth V2 视频序列数据集402.12 GBNYU Depth V2 是各种室内场景视频序列组成的数据集,主要用于图像描述研究,其图像来自于 Microsoft Kinect 的摄像头记录。 该数据集包含 1449 个密集标记的对齐 RGB 和深度图像,并包含 3 个城市拍摄的 464 个新场景以及 407024 个未标记…
-
Tiny Images Dataset 图像数据集397.06 GBTiny Images Dataset 是一个微小图像数据集,包含 79,300,000 张 32*32 像素的彩色图像。这些图片采集自 Google Images,分为 75,000 个类别。 Tiny Images Dataset 常结合 ImageNet 训练集合,用于测试…
-
Objects365 目标检测数据集380.5 GB这是一个带有标注的大规模目标检测数据集。该数据集包含 365 类目标对象,2 百万张图像,3 千万个边界框,这些边界框是通过精心设计的 three-step 标注 pipeline 手动标注的。 该数据集是迄今为止最大的目标检测数据集(有完整的标注),为社区建立了一个更具挑战性的…
-
THUMOS 2014+2015 动作识别数据集312.23 GBTHUMOS14 是一个大规模的视频数据集,包括来自 20 个类别的 1,010 个 验证视频和 1,574 个测试视频。在所有的视频中,验证集和测试集分别有 220 和 212 个带有时间标注的视频。 该数据集的最新版本是 THUMOS 2015,包含超过 430 小时的视频数…
-
REDS 现实和动态场景数据集279.85 GBREDS 全称 The REalistic and Diverse Scenes,是一个提供了现实和动态场景的数据集,可用于视频去模糊和超分辨率。 该数据集由 300 个分辨率为 720 × 1,280 的视频序列组成,每个视频有 100 帧,其中训练集、验证集和测试集分别有 2…
-
IMDB-WIKI 人脸数据库276.23 GBIMDB-WIKI 人脸数据库是一套脸部图像数据集,带有年龄和性别标签的它是迄今为止最大的年龄预测公共数据集。该数据集基于 IMDB 和 Wikipedia 两大数据库,其中 IMDB 数据库包含 460,723 张人脸图片,Wikipedia 数据库包含 62,328 张人脸图…
-
LaSOT 大规模单目标跟踪数据集273.54 GBLaSOT 全称 Large-scale Single Object Tracking,是一个高质量的大规模单目标跟踪 benchmark。LaSOT 由 1400个 序列组成,总帧数超过 350 万,每一帧都被手动地标注了边界框,这也使得 LaSOT 成为了最大的密集标注跟踪 …
-
SynLiDAR 合成 LiDAR 点云数据集272.51 GBSynLiDAR 是一种合成 LiDAR 点云数据集,其中包含具有准确几何形状和全面语义类别的大规模逐点标注的点云。该数据集从虚拟的城市、郊区城镇、社区和港口收集了 13 个 LiDAR 点云序列,其中有大约 2 万个扫描(超过 190 亿个点和 32 个语义类别)。
-
CMU Monocular MoCap 单眼视图模型数据集269.96 GBMonocular MoCap数据集是由CMU卡内基梅隆大学提供,包含40个对象在多个摄像头下的3D模型数据。该数据集录制于Panoptic Studio,也属于Panoptic Studio数据集中的一个子集,此数据集可用于对于图像的3D建模任务。
近期更新资源
-
ImageNet 10 图像识别数据集1 个月ImageNet 是目前世界上最大的图像识别数据库,主要用于机器视觉领域的图像分类和目标检测。数据集根据 WordNet 层次结构组织,其中每个节点(也称为类别)由数百甚至数千张图像组成,每个节点有平均超过 500 个图像。该数据集共包含 2.2 万个图像类别,约 1500 万张…
-
OpenMantra 漫画机器翻译评估数据集1 个月该数据集是一个针对日文漫画的机器翻译评估数据集,包含五种不同风格(幻想、爱情、战斗、悬疑、生活)的漫画,数据集中共包含 1593 个句子,848 个场景画面和 214 页漫画,由东京大学 Mantra 团队发布。 数据格式:带注释的 JSON 文件和原始图像
-
VGG-Face2 人脸识别数据集1 个月VGG-Face2 Dataset 是一个人脸图片数据集,包含共计 9131 个人的面部数据,图像均来自 Google 的图片搜索。数据集中的人在姿势、年龄、种族和职业方面有很大差异。 该数据集由牛津大学的工程科学系视觉几何组于 2015 年发布,相关论文有《Deep Face …
-
DOTA 航拍图像数据集1 个月DOTA 全称为 A Large-scale Dataset for Object DeTection in Aerial Images,是一个包含 2,806 张航拍图的图像数据集,被用于在航拍图像中进行目标检测,发现和评估图像中的物体。这些图像来源包含不同传感器和平台。每张图…
-
Tanks Temple 图像三维重建数据集1 个月Tanks Temple 图像数据集提供高分辨率的视频,研究人员可以从视频中采集图像,依据图像进行三维重建。该数据集提供训练数据和测试数据两类,其中测试数据分为中级组和高级组。训练集提供 7 个场景的 7 个高分辨率视频。 测试集共提供 14 个场景的 14 个高分辨率视频:中级…
-
AVSpeech – 视听语音数据集1 个月AVSpeech是一个新的、大规模的视听数据集,包括没有干扰的背景噪音的语音视频片段。这些片段的长度为 3-10 秒,在每个片段中,原声带中的听到的声音,属于视频中可看见的唯一在说话的人。 该数据集包含大约 4700 小时的视频片段,来自 29 万个 YouTube 视频,涵盖了…
-
ActivityNet 数据集2 个月ActivityNet 数据集包含 200 种不同类型的活动、共计 849 小时的 YouTube 视频。就活动类目和视频数量而言,ActivityNet 是迄今为止最大的时序活动检测 (temporal activity detection) 基准。 ActivityNet V…
-
Unsplash 照片数据集(完整版)2 个月Unsplash 数据集涉及 25 万+ 摄影师和数亿条搜索记录,涉及数千种应用、用途和场景。 该数据集分为两个版本: 精简版可用作商业和非商业用途,包含 25,000 张自然主题图像,25,000 个关键词,100 万条搜索记录。 完整版仅用作非商业用途,包含 300 万+ 图…
-
PS-Battles 图像纂改数据集2 个月PS-Battles 数据集是从一个大规模的图像处理爱好者社区收集的,为视觉领域的媒体衍生 (media derivation) 和处理检测 (manipulation detection) 提供了基础。该数据集由 102,028 张图像组成,被分为11'142 个子集,每个子集…
-
OpenML-CC18 机器学习数据集2 个月OpenML-CC18 是一个全面的机器学习数据集。数据集辅以标准化的基于 OpenML 的界面和用 Python、Java 和 R 编写的补充软件工具包,演示了如何使用标准化的基于 OpenML 的基准套件和用 Python、Java 和 R 编写的补充软件工具包轻松执行全面的…
-
BUFF 三维人体数据集2 个月可靠的三维身体形状评估,对于如健康监测、虚拟试穿等诸多应用来说,十分必要。但是扫描极小衣服下的身体,却是该项技术研究的一大难题。相关研究人员提出通过使用三维扫描的方法来解决这一技术难题,为此又提出了 BUFF 数据集,用以进行定量评估。 BUFF 数据集全称 Bodies Und…
-
AOLP 车牌数据集2 个月AOLP 全称 Application-oriented License Plate,是一个应用导向的车牌数据集。数据集包含 2049 个台湾车牌图像。数据集分为三个子集:681 个访问控制(AC )的样本、757 个交通执法( LE )的样本和611 个公路巡逻( RP )的样…
-
DanceTrack 运动跟踪数据集2 个月DanceTrack 是一个大规模的多对象跟踪数据集。用于在遮挡、频繁交叉、同样服装和多样化身体姿态条件下对人进行跟踪。强调运动分析在多对象跟踪中的重要性。
-
MoVi 大型多用途运动视频数据集2 个月MoVi 全称 Large Multipurpose Motion and Video,是大型多用途运动视频数据集,包含 20 个预定的日常动作和体育动作,以及 1 个自选动作。这些视频由 60 名女性和 30 名男性完成。三台不同的硬件设备采集了 5 次数据,共采集了 9 小时…
-
iBims-1 高质量 RGB-D 数据集2 个月Ibims-1 全称 Independent benchmark images and matched scans v1,是一个新的高质量 RGB-D 数据集。其专为测试单图像深度估计( SIDE )方法而设计。研究人员用数字单镜头反射( DSLR )相机和高精度激光扫描仪组成的…
-
StreetLearn 端到端导航数据集2 个月StreetLearn 是一个交互式、以第一人称拍摄、部分可观察的视觉环境数据集,图像内容通过 Google Street View 获取,覆盖范围广泛,并为极具挑战性的目标驱动导航任务提供性能 baseline。
-
URLB 强化学习数据集2 个月URLB 全称 Unsupervised Reinforcement Learning Benchmark,是一个无监管强化学习数据集。URLB 包括两个阶段:无奖励的预训练阶段和有外部奖励的下游任务适应阶段。在 DeepMind 控制套件的基础上,该数据集提供了来自三个领域的 …
-
OpenEDS 眼球图像数据集2 个月OpenEDS 全称 Open Eye Dataset,是一个大规模的眼球图像数据集,图像由使用 VR 头盔安装的眼控摄像头采集。Facebook希望通过此数据集的开放促进虚拟现实领域的技术发展。 该数据集包含从 152 名受试者的眼部视频中随机选择了 12,759 张图像进行像…
-
OMG-Emotion 情绪识别数据集2 个月OMG-Emotion 全称 One-Minute Gradual-Emotional Behavior dataset。该数据集包含 567 个平均长度为 1 分钟的情感视频,包含 7,371 个基于话语(每个话语至少5个独立主题)分割并标注的视频片段。 这些视频是使用爬虫技术…
-
FIW 亲属关系数据集2 个月FIW 全称 Families In The Wild,是一个用于研究亲属人脸识别算法的数据集。该数据集总共包含涉及 1,000 个家庭的 11,163 张图片,每一个家庭至少 3 个成员,8 张图片。此外,该数据集包含 656,954 个图像对,涵盖 11 类关系。
-
YouTube-UGC 视频数据集2 个月YouTube-UGC 是一个大规模 UGC 数据集,包括 YouTube 官网上 1500 个时长 20 秒的视频,这些内容均由用户遵循知识共享协议上传,可用于视频压缩和质量评估领域的研究。视频内容涵盖了游戏、体育等热门类别,以及高动态范围成像(HDR)等新特性。质量评估使用了…
-
STPLS3D 点云数据集2 个月STPLS3D 全称 Semantic Terrain Points Labeling - Synthetic 3D,旨在为语义分割及实例分割任务,提供一个大规模航拍测量数据集(包含合成 & 真实标注的 3D 点云)。 该数据集包含: 1.27 平方公里景观的…
-
Market-1501-C 损坏图像数据集5 个月Market-1501-C 是一个由应用于 Market-1501 测试集的算法生成的变体组成的评估数据集。由于在智能安全和视频监控等方面的广泛应用,人像识别已经成为计算机视觉领域的一个热门话题。然而将目前的人像识别模型部署到现实世界中仍有许多问题。与物体分类和检测不同,人像重新…
-
CONCODE 代码示例数据集5 个月CONCODE 是一个新的代码示例大型数据集。数据集包含 10 万多个示例(包括来自在线代码存储库的Java 类)。该数据集开发了一种新的编码器解码器架构,用于模拟方法文档和类环境之间的交互。
-
Industrial Benchmark 弥合人工实际问题属性数据集5 个月Industial Benchmark 是一个弥合免费的、记录的和主动的人工问题与实际工业问题属性之间的差距的数据集。数据集有关线下 RL 和线上 RL 的现实,用于查找最适合现实世界应用程序的 RL 算法。数据集旨在提供可解释的 RL 培训场景,并详细了解方法的学习过程。(通过…
-
DeepWriting 手写文本数据集5 个月DeepWriting 是新的手写文本数据集,在字符层面具有细粒度标注,并提供了初步用户评估的结果。该数据集可用于研究数字墨水可编辑化,比如在不改变文本内容的情况下进行文本风格的转换、在单词层面编辑数字墨水、以及拼写检查和手写文本更正等应用。
-
3D Hand Pose 多视图手势数据集5 个月3D Hand Pose 是一个多视图手势数据集。数据集由手的彩色图像和每种手的标注组成:bounding box 以及手关节的 2D 和 3D 位置。
-
A3D 交通事故数据集5 个月A3D 全称 AnAn Accident Detection,是一个全新的关于各种交通事故的数据集。识别交通违章和自动驾驶场景中的事故事件对于自动驾驶和驾驶员辅助系统至关重要。常见的交通事故视频往往假设摄像头固定,视频有静态背景,但这对于车载摄像头就不合理了。所以该数据集的视频基…
-
HumanAct 12 三维人体动作图像数据集5 个月这是一个新型三维人体动作图像数据集,图像选自极坐标图像和三维姿势数据集 PHSPD,具有适当的时间裁剪和动作标注。该数据集有 1,191 个三维动作片段,90,099 个姿势,这些动作被分为 12 个动作类别和 34 个细化的子类别。动作类型包括日常运动,如走、跑、坐、跳、热身等…
-
TextZoom 超分辨率数据集5 个月TextZoom 是一个超分辨率数据集,由成对的低分辨率(LR)和高分辨率(HR)图像组成。这些图像是由不同焦距的相机在野外拍摄的。每一个图像对都有区分大小写的字符串(包括标点符号)的标注、边界框类型和原始焦距。 该数据集按照难度分为有三个子集:困难、中等、简易,其中 LR 图像…