HyperAI超神经

6 大经典机器学习数据集，3w+ 用户票选得出，建议收藏

内容一览：本期汇总了超神经下载众多的 6 个数据集，涵盖图像识别、机器翻译、遥感影像等领域。这些数据集质量高、数据量大，经历人气认证值得收藏码住。关键词：数据集机器翻译机器视觉

数据集是机器学习模型训练的基础，优质的公开数据集对于模型训练效果、研究成果可靠度等具有重要意义。

HyperAI 超神经自上线以来，为数据科学从业者提供了大量优质的公开数据集。本期内容分享，我们筛选出了 6 个热门数据集，其总下载次数已达到 32,569 次。希望这些数据集能进一步为广大开发者服务~

注：本文梳理的数据集均来自网站：

数据集

第 6 名：Tanks Temple 3D 重建数据集

发布机构：英特尔实验室

包含数量：21 类对象的高清视频

数据类型：video

预估大小：52.53 GB

发布时间：2017 年

下载地址：hyper.ai/datasets/5148

Tanks Temple 图像数据集提供高分辨率的视频，研究人员可以从视频中采集图像，依据图像进行三维重建。该数据集包括训练数据和测试数据两类，其中测试数据分为中级组和高级组。

第 5 名：DOTA 航拍图像数据集

发布机构：武汉大学

包含数量：2,806 幅航拍图

数据类型：images

预估大小：35.38 GB

发布时间：2017 年

下载地址：hyper.ai/datasets/4920

DOTA 全称为 A Large-scale Dataset for Object DeTection in Aerial Images，是一个包含 2,806 张航拍图的图像数据集，被用于在航拍图像中进行目标检测，发现和评估图像中的物体。

这些图像来源包含不同传感器和平台。每张图像的像素尺寸在 800*800 到 4000*4000 的范围内，其中包含不同尺度、方向和形状的物体。

往期推送请访问：

DOTA 数据集：2806 张遥感图像，近 19 万个标注实例

第 4 名：VGG-Face2 人脸识别数据集

发布机构：牛津大学

包含数量：331 万张图片

数据类型：images

预估大小：37.49 GB

发布时间：2015 年

下载地址：hyper.ai/datasets/5711

VGG-Face2 是一个人脸图像数据集，包含共计 9131 个人的面部数据，图像均来自 Google 的图片搜索。数据集中的人在姿势、年龄、种族和职业方面有很大差异。该数据集由牛津大学的工程科学系视觉几何组于 2015 年发布，相关论文有《Deep Face Recognition》。

第 3 名：UCAS-AOD 遥感影像数据集

发布机构：中国科学院大学

包含数量：910 张图像

数据类型：images

预估大小：3.24 GB

发布时间：2014 年

下载地址：hyper.ai/datasets/5419

UCAS-AOD 是一个遥感影像数据集，用于飞机和车辆检测。该数据集由国科大于 2014 年首次发布，并于 2015 年补充，相关论文有《Orientation Robust Object Detection in Aerial Images Using Deep Convolutional Neural Network》

第 2 名：OpenMantra 漫画机器翻译数据集

发布机构：东京大学

包含数量：214 页漫画

数据类型：JSON files 、 images

预估大小：32.46 MB

发布时间：2020 年

下载地址：hyper.ai/datasets/14137

OpenMantra 是一个针对日文漫画的机器翻译评估数据集，包含五种不同风格（fantacy 、 romance 、 battle 、 mystery 、 slice of life）的漫画。数据集中共包含 1593 个句子，848 个场景画面和 214 页漫画，由东京大学 Mantra 团队发布。

往期推送请查看：

HyperAI 超神经：漫画翻译、嵌字 AI，东京大学论文被 AAAI’21 收录 3 赞同 · 1 评论文章

第 1 名：ImageNet 10 图像识别数据集

发布机构：普林斯顿大学

包含数量：1,500 万张图片

数据类型：images

预估大小：860.55 GB

发布时间：2009 年

下载地址：hyper.ai/datasets/4889

ImageNet 是目前世界上最大的图像识别数据库，由斯坦福大学教授李飞飞等人创建。主要用于机器视觉领域的图像分类和目标检测。

数据集根据 WordNet 层次结构组织，其中每个节点（也称为类别）由数百甚至数千张图像组成。该数据集共包含 2.2 万个图像类别，约 1500 万张图片。

往期推送请访问：

当年这个决定，让李飞飞奠定 AI 江湖的女王地位mp.weixin.qq.com/s/VyKUmG512pFJ3XTgVf4Qjg

以上就是本期推荐的 6 个 hyper.ai 高频下载数据集，更多数据科学优质公开数据集，可点击文末阅读原文，或访问以下链接下载：

数据集

本文首发自微信公众号「HyperAI 超神经」原文可见『6 大经典机器学习数据集，3w+ 用户票选得出，建议收藏』

—— 完 ——

6 大经典机器学习数据集，3w+ 用户票选得出，建议收藏

内容一览：本期汇总了超神经下载众多的 6 个数据集，涵盖图像识别、机器翻译、遥感影像等领域。这些数据集质量高、数据量大，经历人气认证值得收藏码住。关键词：数据集机器翻译机器视觉

数据集是机器学习模型训练的基础，优质的公开数据集对于模型训练效果、研究成果可靠度等具有重要意义。

注：本文梳理的数据集均来自网站：

数据集

第 6 名：Tanks Temple 3D 重建数据集

发布机构：英特尔实验室

包含数量：21 类对象的高清视频

数据类型：video

预估大小：52.53 GB

发布时间：2017 年

下载地址：hyper.ai/datasets/5148

第 5 名：DOTA 航拍图像数据集

发布机构：武汉大学

包含数量：2,806 幅航拍图

数据类型：images

预估大小：35.38 GB

发布时间：2017 年

下载地址：hyper.ai/datasets/4920

这些图像来源包含不同传感器和平台。每张图像的像素尺寸在 800*800 到 4000*4000 的范围内，其中包含不同尺度、方向和形状的物体。

往期推送请访问：

DOTA 数据集：2806 张遥感图像，近 19 万个标注实例

第 4 名：VGG-Face2 人脸识别数据集

发布机构：牛津大学

包含数量：331 万张图片

数据类型：images

预估大小：37.49 GB

发布时间：2015 年

下载地址：hyper.ai/datasets/5711

第 3 名：UCAS-AOD 遥感影像数据集

发布机构：中国科学院大学

包含数量：910 张图像

数据类型：images

预估大小：3.24 GB

发布时间：2014 年

下载地址：hyper.ai/datasets/5419

第 2 名：OpenMantra 漫画机器翻译数据集

发布机构：东京大学

包含数量：214 页漫画

数据类型：JSON files 、 images

预估大小：32.46 MB

发布时间：2020 年

下载地址：hyper.ai/datasets/14137

往期推送请查看：

HyperAI 超神经：漫画翻译、嵌字 AI，东京大学论文被 AAAI’21 收录 3 赞同 · 1 评论文章

第 1 名：ImageNet 10 图像识别数据集

发布机构：普林斯顿大学

包含数量：1,500 万张图片

数据类型：images

预估大小：860.55 GB

发布时间：2009 年

下载地址：hyper.ai/datasets/4889

ImageNet 是目前世界上最大的图像识别数据库，由斯坦福大学教授李飞飞等人创建。主要用于机器视觉领域的图像分类和目标检测。

数据集根据 WordNet 层次结构组织，其中每个节点（也称为类别）由数百甚至数千张图像组成。该数据集共包含 2.2 万个图像类别，约 1500 万张图片。

往期推送请访问：

当年这个决定，让李飞飞奠定 AI 江湖的女王地位mp.weixin.qq.com/s/VyKUmG512pFJ3XTgVf4Qjg

以上就是本期推荐的 6 个 hyper.ai 高频下载数据集，更多数据科学优质公开数据集，可点击文末阅读原文，或访问以下链接下载：

数据集

本文首发自微信公众号「HyperAI 超神经」原文可见『6 大经典机器学习数据集，3w+ 用户票选得出，建议收藏』

—— 完 ——

内容一览：本期汇总了超神经下载众多的 6 个数据集，涵盖图像识别、机器翻译、遥感影像等领域。这些数据集质量高、数据量大，经历人气认证值得收藏码住。关键词：数据集机器翻译机器视觉

数据集是机器学习模型训练的基础，优质的公开数据集对于模型训练效果、研究成果可靠度等具有重要意义。

注：本文梳理的数据集均来自网站：

数据集

第 6 名：Tanks Temple 3D 重建数据集

发布机构：英特尔实验室

包含数量：21 类对象的高清视频

数据类型：video

预估大小：52.53 GB

发布时间：2017 年

下载地址：hyper.ai/datasets/5148

第 5 名：DOTA 航拍图像数据集

发布机构：武汉大学

包含数量：2,806 幅航拍图

数据类型：images

预估大小：35.38 GB

发布时间：2017 年

下载地址：hyper.ai/datasets/4920

这些图像来源包含不同传感器和平台。每张图像的像素尺寸在 800*800 到 4000*4000 的范围内，其中包含不同尺度、方向和形状的物体。

往期推送请访问：

DOTA 数据集：2806 张遥感图像，近 19 万个标注实例

第 4 名：VGG-Face2 人脸识别数据集

发布机构：牛津大学

包含数量：331 万张图片

数据类型：images

预估大小：37.49 GB

发布时间：2015 年

下载地址：hyper.ai/datasets/5711

第 3 名：UCAS-AOD 遥感影像数据集

发布机构：中国科学院大学

包含数量：910 张图像

数据类型：images

预估大小：3.24 GB

发布时间：2014 年

下载地址：hyper.ai/datasets/5419

第 2 名：OpenMantra 漫画机器翻译数据集

发布机构：东京大学

包含数量：214 页漫画

数据类型：JSON files 、 images

预估大小：32.46 MB

发布时间：2020 年

下载地址：hyper.ai/datasets/14137

往期推送请查看：

HyperAI 超神经：漫画翻译、嵌字 AI，东京大学论文被 AAAI’21 收录 3 赞同 · 1 评论文章

第 1 名：ImageNet 10 图像识别数据集

发布机构：普林斯顿大学

包含数量：1,500 万张图片

数据类型：images

预估大小：860.55 GB

发布时间：2009 年

下载地址：hyper.ai/datasets/4889

ImageNet 是目前世界上最大的图像识别数据库，由斯坦福大学教授李飞飞等人创建。主要用于机器视觉领域的图像分类和目标检测。

数据集根据 WordNet 层次结构组织，其中每个节点（也称为类别）由数百甚至数千张图像组成。该数据集共包含 2.2 万个图像类别，约 1500 万张图片。

往期推送请访问：

当年这个决定，让李飞飞奠定 AI 江湖的女王地位mp.weixin.qq.com/s/VyKUmG512pFJ3XTgVf4Qjg

以上就是本期推荐的 6 个 hyper.ai 高频下载数据集，更多数据科学优质公开数据集，可点击文末阅读原文，或访问以下链接下载：

数据集

本文首发自微信公众号「HyperAI 超神经」原文可见『6 大经典机器学习数据集，3w+ 用户票选得出，建议收藏』

—— 完 ——

Command Palette

6 大经典机器学习数据集，3w+ 用户票选得出，建议收藏

第 6 名：Tanks Temple 3D 重建数据集

第 5 名：DOTA 航拍图像数据集

第 4 名：VGG-Face2 人脸识别数据集

第 3 名：UCAS-AOD 遥感影像数据集

第 2 名：OpenMantra 漫画机器翻译数据集

第 1 名：ImageNet 10 图像识别数据集

Command Palette

6 大经典机器学习数据集，3w+ 用户票选得出，建议收藏

第 6 名：Tanks Temple 3D 重建数据集

第 5 名：DOTA 航拍图像数据集

第 4 名：VGG-Face2 人脸识别数据集

第 3 名：UCAS-AOD 遥感影像数据集

第 2 名：OpenMantra 漫画机器翻译数据集

第 1 名：ImageNet 10 图像识别数据集

相关报道

数据集汇总丨从医疗影像/临床数据，到细胞图谱/医学问答，10 大数据集覆盖多类疾病场景

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文

在线教程丨港大团队开源个人学习助手 DeepTutor，多智能体协作实现覆盖理解/推理/生成的交互式学习

教程汇总丨开源小模型综合智能水平追平 GPT-5，一站测评 Qwen 3.5/Gemma 4 等热门模型

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

Free CPU 在线教程 | Hermes Agent 学会长期记忆？记忆增强插件 TencentDB Agent Memory 可将事实/偏好/任务状态等分开存储

数据集汇总丨 AI Agent 评测数据集，Microsoft/北大/港大/上海交大等发布 10 个数据集，从长程记忆到真实环境任务执行全覆盖

论文汇总 | 大模型强化学习最新进展，微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果

Command Palette

6 大经典机器学习数据集，3w+ 用户票选得出，建议收藏

第 6 名：Tanks Temple 3D 重建数据集

第 5 名：DOTA 航拍图像数据集

第 4 名：VGG-Face2 人脸识别数据集

第 3 名：UCAS-AOD 遥感影像数据集

第 2 名：OpenMantra 漫画机器翻译数据集

第 1 名：ImageNet 10 图像识别数据集

相关报道

数据集汇总丨从医疗影像/临床数据，到细胞图谱/医学问答，10 大数据集覆盖多类疾病场景

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文

在线教程丨港大团队开源个人学习助手 DeepTutor，多智能体协作实现覆盖理解/推理/生成的交互式学习

教程汇总丨开源小模型综合智能水平追平 GPT-5，一站测评 Qwen 3.5/Gemma 4 等热门模型

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

Free CPU 在线教程 | Hermes Agent 学会长期记忆？记忆增强插件 TencentDB Agent Memory 可将事实/偏好/任务状态等分开存储

数据集汇总丨 AI Agent 评测数据集，Microsoft/北大/港大/上海交大等发布 10 个数据集，从长程记忆到真实环境任务执行全覆盖

论文汇总 | 大模型强化学习最新进展，微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果

相关报道

数据集汇总丨从医疗影像/临床数据，到细胞图谱/医学问答，10 大数据集覆盖多类疾病场景

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文

在线教程丨港大团队开源个人学习助手 DeepTutor，多智能体协作实现覆盖理解/推理/生成的交互式学习

教程汇总丨开源小模型综合智能水平追平 GPT-5，一站测评 Qwen 3.5/Gemma 4 等热门模型

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

Free CPU 在线教程 | Hermes Agent 学会长期记忆？记忆增强插件 TencentDB Agent Memory 可将事实/偏好/任务状态等分开存储

数据集汇总丨 AI Agent 评测数据集，Microsoft/北大/港大/上海交大等发布 10 个数据集，从长程记忆到真实环境任务执行全覆盖

论文汇总 | 大模型强化学习最新进展，微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果

相关报道

数据集汇总丨从医疗影像/临床数据，到细胞图谱/医学问答，10 大数据集覆盖多类疾病场景

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

论文周报丨 ProgramBench 让 AI 从零写软件，9 大模型集体翻车；无需额外真实世界数据，ExoActor 展现强场景泛化能力……速览一周 AI 前沿论文

在线教程丨港大团队开源个人学习助手 DeepTutor，多智能体协作实现覆盖理解/推理/生成的交互式学习

教程汇总丨开源小模型综合智能水平追平 GPT-5，一站测评 Qwen 3.5/Gemma 4 等热门模型

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

Free CPU 在线教程 | Hermes Agent 学会长期记忆？记忆增强插件 TencentDB Agent Memory 可将事实/偏好/任务状态等分开存储

数据集汇总丨 AI Agent 评测数据集，Microsoft/北大/港大/上海交大等发布 10 个数据集，从长程记忆到真实环境任务执行全覆盖

论文汇总 | 大模型强化学习最新进展，微软/谷歌/斯坦福/人大/小红书等发布信用分配/复杂推理/智能体强化学习重磅成果