号外!号外!老乡鸡的「机密文件」竟然被公开了!
近日,老乡鸡将 20 万字的《老乡鸡菜品溯源报告》向社会全面公开,从食材的源头到烹饪的细节,全都清清楚楚。现已在超神经提供下载,快来看看有没有你爱吃的!
PS:小编只想问,按照报告做翻车了能提 issue 吗?
4 月 15 日-4 月 19 日,hyper.ai 官网更新速览:
* 优质公共数据集:10 个
* 优质教程精选:2 个
* 社区文章精选:3 篇
* 热门百科词条:5 条
访问官网:hyper.ai
公共数据集精选
1. 老乡鸡菜品溯源报告
该数据集覆盖老乡鸡当前 1,218 家餐厅共计 226 个 SKU 、 873 种原料以及 305 家供应商。老乡鸡将 677 页共 20 万字的《老乡鸡菜品溯源报告》向社会全面公开。
直接使用:https://go.hyper.ai/nbESl
2. Open Sora Dataset 项目视频数据集
Open-Sora-Plan 是一个开源项目,旨在复现 OpenAI 的 Sora(T2V 模型)。该数据集为其项目视频数据集。研究团队在 CC0 许可下从开源网站抓取了 40,258 个视频。所有视频均为高质量无水印,其中约 60% 为风景数据。
直接使用:https://go.hyper.ai/75Ftc
3. MMVP 多模态运动捕捉数据集
该数据集包含了诸多大范围且迅速的人体运动,如跑步、跳绳、立定跳远等,总计采集了 16 位受试者的逾 44k 帧同步 RGBD 帧以及压力数据。
直接使用:https://go.hyper.ai/4edeR
4. OpenWebMath 开放网络数学训练数据集
OpenWebMath 是一个包含来自互联网的大部分高质量数学文本的数据集。它是从 Common Crawl 上超过 200B 个 HTML 文件中过滤和提取的,最终形成一组 630 万个文档,总共包含 14.7B 个 tokens 。 OpenWebMath 旨在用于预训练和微调大型语言模型。
直接使用:https://go.hyper.ai/zjytq
5. Proof-Pile-2 数学数据集
Proof-Pile-2 是一个包含 550 亿个数学和科学文档的 token 数据集。融合了科学论文、数学相关的网络内容和数学代码,其知识截止于 2023 年 4 月(不包括特定的 Lean 证明步骤子集)。创建此数据集是为了训练 Llemma 7B 和 Llemma 34B 模型。
直接使用:https://go.hyper.ai/aant8
6. Mizar 数学数据集
Mizar 数学库包含了经过形式化的数学定理和证明,涵盖了广泛的数学领域,包括逻辑、代数、分析、几何等。这个库的目标是提供一个可靠的数学基础,以便进行自动化的定理证明和形式化推理。
直接使用:https://go.hyper.ai/IJeHa
7. Isabelle 平行语料库
Isabelle 平行语料库 (IPC) 是一个由社区驱动的倡议,旨在创建 Isabelle 文档的平行语料库。 IPC 将 Isabelle 中的形式化文档(如定理、引理、定义等)与它们的自然语言对应文本配对。
直接使用:https://go.hyper.ai/BEADY
8. Fruits Dataset 水果新鲜程度分类数据集
该数据集包含三种水果的图像:苹果、橙子和香蕉。每张图像都根据其水果类型和新鲜度状态进行标记,从而实现分类或对象检测等监督学习任务。
直接使用:https://go.hyper.ai/b7TNx
9. DeepFruit 水果图像分类数据集
DeepFruit 是穆罕默德·本·法赫德亲王大学等研究机构联合发布的水果图像分类数据集。该数据集包含基于 8 种不同水果集组合的 21,122 张水果图像。可以用于水果检测、识别和分类领域的研究,以及卡路里估算等其他创新应用。
直接使用:https://go.hyper.ai/ut4BA
10. 15 个动物图像分类数据集
该数据集包含 15 个动物的图像文件夹,所有图像大小均为 224X224,适合图像分类。图像从网络下载并使用 OpenCV 库进行了预处理(调整大小和增强)。因此,该数据集可以直接用于训练,无需进一步的数据增强。
直接使用:https://go.hyper.ai/tgMtH
更多公共数据集,请访问:
公共教程精选
1. 在线教程|低门槛部署!SUPIR 专治各种图片模糊,还能理解文本描述进行精修
图像修复工具 SUPIR 利用 StableDiffusion-XL (SDXL) 和模型扩展技术,通过机器学习和多模态方法,能够显著提升图像的修复质量。该教程为大家搭建好了环境,无需任何复杂的前期准备,点击即可一键修复图片。
在线运行:https://go.hyper.ai/3RBMH
2. 用 Ollama 和 Open WebUI 部署大模型
该教程为 Ollama + Open WebUI 一键运行包,只需按步骤输入命令即可运行大模型。目前包含的模型有:qwen 1.5 14b 、 qwen 1.5 32b 、 llava 1.6 34b,支持自行上传使用新的模型。
在线运行:https://go.hyper.ai/FwREK
社区文章精选
1. 加速催化剂设计,上海交大贺玉莲课题组基于 AutoML 进行知识自动提取
上海交通大学密西根学院助理教授贺玉莲课题组,针对确定决定 Eads 的关键物理量提出了一种新方法,即基于自动机器学习的特征删除实验,从高通量密度泛函理论数据库中实现了知识的自动提取。本文是对该研究的详细解读和分享。
查看完整报道:https://go.hyper.ai/LEVS1
2. 击败全球 No.1 系统、覆盖 80+ 国家,谷歌洪水预测模型再登 Nature
谷歌团队开发了一个基于机器学习的河流预报模型,该模型的预测能力优于目前全球最先进洪水预报系统 GloFAS,能够提前 5 天实现对洪水的可靠预测,可覆盖 80 多个国家。本文是对该研究的分享和解读。
查看完整文章:https://go.hyper.ai/V4r4i
3. 锂电池寿命预测精度提升 20%!上海交大团队发布半监督学习方法 PBCT,提取无标签数据中的隐藏信息
上海交通大学研究团队提出了一个半监督学习方法 PBCT,充分利用锂电池全生命周期中产生的低成本且丰富的无标签数据,通过提取其中的隐藏信息,深化对底层数据模式的认识,锂电池寿命预测精度提升 20% 。本文是对该研究的分享和解读。
查看完整报道:https://go.hyper.ai/2EQGa
热门百科词条精选
1. Epoch
2. 学习率 Learning Rate
3. 配对 t 检验 Paired t-Test
4. 扩散模型 Diffusion Model
5. 大语言模型 Large Language Model
这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:
B 站直播预告
Google 日前宣布将于 5 月 14 日举办 2024 年度 I/O 开发者大会,为了帮助大家深入了解 Google ,超神经直播间将从下周一开始 7×24 小时不间断直播「Google 专题」视频,涉及:Google I/O 历年发布会、高管访谈、相关纪录片等丰富内容。
下表为小编为大家精选的内容预告↓↓↓
日期 | 时间 | 内容 |
4 月 15 日 星期一 | 18:00 | Google 历年 I/O 发布会 |
4 月 16 日星期二 | 18:00 | Google Cloud NEXT 历年大会 |
4 月 17 日星期三 | 18:00 | TIME100 访谈 Sundar Pichai |
4 月 18 日星期四 | 18:00 | Google 首席执行官谈中美人工智能竞赛 |
4 月 19 日星期五 | 18:00 | AlphaGo 纪录片 |
4 月 20 日星期六 | 18:00 | Google 纪录片背后创始人的故事 |
4 月 21 日星期日 | 18:00 | BBC 纪录片没有 Google 的世界 |
超神经电视台 7×24h 不间断直播,点击即可收获 AI 领域的「电子榨菜」:
http://live.bilibili.com/26483094
以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!
下周再见!
关于 HyperAI 超神经 (hyper.ai)
HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:
* 为 1200+ 公开数据集提供国内加速下载节点
* 收录 300+ 经典及流行在线教程
* 解读 100+ AI4Science 论文案例
* 支持 500+ 相关词条查询
* 托管国内首个完整的 Apache TVM 中文文档
访问官网开启学习之旅: