每周编辑精选|老乡鸡开源「菜品溯源报告」、修复老照片 SUPIR 工具在线使用

特色图像

号外!号外!老乡鸡的「机密文件」竟然被公开了!

近日,老乡鸡将 20 万字的《老乡鸡菜品溯源报告》向社会全面公开,从食材的源头到烹饪的细节,全都清清楚楚。现已在超神经提供下载,快来看看有没有你爱吃的!

PS:小编只想问,按照报告做翻车了能提 issue 吗?

4 月 15 日-4 月 19 日,hyper.ai 官网更新速览:

* 优质公共数据集:10 个

*  优质教程精选:2 个

* 社区文章精选:3 篇

* 热门百科词条:5 条

访问官网:hyper.ai

公共数据集精选

1.  老乡鸡菜品溯源报告

该数据集覆盖老乡鸡当前 1,218 家餐厅共计 226 个 SKU 、 873 种原料以及 305 家供应商。老乡鸡将 677 页共 20 万字的《老乡鸡菜品溯源报告》向社会全面公开。

直接使用:https://go.hyper.ai/nbESl

2. Open Sora Dataset 项目视频数据集

Open-Sora-Plan 是一个开源项目,旨在复现 OpenAI  的 Sora(T2V 模型)。该数据集为其项目视频数据集。研究团队在 CC0 许可下从开源网站抓取了 40,258 个视频。所有视频均为高质量无水印,其中约 60% 为风景数据。

直接使用:https://go.hyper.ai/75Ftc

3. MMVP 多模态运动捕捉数据集

该数据集包含了诸多大范围且迅速的人体运动,如跑步、跳绳、立定跳远等,总计采集了 16 位受试者的逾 44k  帧同步 RGBD 帧以及压力数据。 

直接使用:https://go.hyper.ai/4edeR

4. OpenWebMath 开放网络数学训练数据集

OpenWebMath 是一个包含来自互联网的大部分高质量数学文本的数据集。它是从 Common Crawl  上超过 200B 个 HTML 文件中过滤和提取的,最终形成一组 630 万个文档,总共包含 14.7B 个 tokens 。 OpenWebMath 旨在用于预训练和微调大型语言模型。

直接使用:https://go.hyper.ai/zjytq

5. Proof-Pile-2 数学数据集

Proof-Pile-2 是一个包含 550 亿个数学和科学文档的 token 数据集。融合了科学论文、数学相关的网络内容和数学代码,其知识截止于 2023 年 4 月(不包括特定的 Lean 证明步骤子集)。创建此数据集是为了训练 Llemma 7B 和 Llemma 34B 模型。

直接使用:https://go.hyper.ai/aant8

6. Mizar 数学数据集

Mizar 数学库包含了经过形式化的数学定理和证明,涵盖了广泛的数学领域,包括逻辑、代数、分析、几何等。这个库的目标是提供一个可靠的数学基础,以便进行自动化的定理证明和形式化推理。

直接使用:https://go.hyper.ai/IJeHa

7. Isabelle 平行语料库

Isabelle 平行语料库 (IPC) 是一个由社区驱动的倡议,旨在创建 Isabelle 文档的平行语料库。 IPC 将 Isabelle 中的形式化文档(如定理、引理、定义等)与它们的自然语言对应文本配对。

直接使用:https://go.hyper.ai/BEADY

8. Fruits Dataset 水果新鲜程度分类数据集

该数据集包含三种水果的图像:苹果、橙子和香蕉。每张图像都根据其水果类型和新鲜度状态进行标记,从而实现分类或对象检测等监督学习任务。

直接使用:https://go.hyper.ai/b7TNx

9. DeepFruit 水果图像分类数据集

DeepFruit 是穆罕默德·本·法赫德亲王大学等研究机构联合发布的水果图像分类数据集。该数据集包含基于 8 种不同水果集组合的 21,122 张水果图像。可以用于水果检测、识别和分类领域的研究,以及卡路里估算等其他创新应用。

直接使用:https://go.hyper.ai/ut4BA

10. 15 个动物图像分类数据集

该数据集包含 15 个动物的图像文件夹,所有图像大小均为 224X224,适合图像分类。图像从网络下载并使用 OpenCV 库进行了预处理(调整大小和增强)。因此,该数据集可以直接用于训练,无需进一步的数据增强。

直接使用:https://go.hyper.ai/tgMtH

更多公共数据集,请访问

https://hyper.ai/datasets

公共教程精选

1. 在线教程|低门槛部署!SUPIR 专治各种图片模糊,还能理解文本描述进行精修

图像修复工具 SUPIR 利用 StableDiffusion-XL (SDXL) 和模型扩展技术,通过机器学习和多模态方法,能够显著提升图像的修复质量。该教程为大家搭建好了环境,无需任何复杂的前期准备,点击即可一键修复图片。

在线运行:https://go.hyper.ai/3RBMH

2.  用 Ollama 和 Open WebUI 部署大模型

该教程为 Ollama + Open WebUI 一键运行包,只需按步骤输入命令即可运行大模型。目前包含的模型有:qwen 1.5 14b 、 qwen 1.5 32b 、 llava 1.6 34b,支持自行上传使用新的模型。

在线运行:https://go.hyper.ai/FwREK

社区文章精选

1.  加速催化剂设计,上海交大贺玉莲课题组基于 AutoML 进行知识自动提取

上海交通大学密西根学院助理教授贺玉莲课题组,针对确定决定 Eads 的关键物理量提出了一种新方法,即基于自动机器学习的特征删除实验,从高通量密度泛函理论数据库中实现了知识的自动提取。本文是对该研究的详细解读和分享。

查看完整报道:https://go.hyper.ai/LEVS1

2.  击败全球 No.1 系统、覆盖 80+ 国家,谷歌洪水预测模型再登 Nature

谷歌团队开发了一个基于机器学习的河流预报模型,该模型的预测能力优于目前全球最先进洪水预报系统 GloFAS,能够提前 5 天实现对洪水的可靠预测,可覆盖 80 多个国家。本文是对该研究的分享和解读。

查看完整文章:https://go.hyper.ai/V4r4i

3. 锂电池寿命预测精度提升 20%!上海交大团队发布半监督学习方法 PBCT,提取无标签数据中的隐藏信息

上海交通大学研究团队提出了一个半监督学习方法 PBCT,充分利用锂电池全生命周期中产生的低成本且丰富的无标签数据,通过提取其中的隐藏信息,深化对底层数据模式的认识,锂电池寿命预测精度提升 20% 。本文是对该研究的分享和解读。

查看完整报道:https://go.hyper.ai/2EQGa

热门百科词条精选

1. Epoch

2.  学习率 Learning Rate

3.  配对 t 检验 Paired t-Test

4.  扩散模型 Diffusion Model

5.  大语言模型 Large Language Model

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://hyper.ai/wiki

B 站直播预告

Google 日前宣布将于 5 月 14 日举办 2024  年度 I/O 开发者大会,为了帮助大家深入了解 Google ,超神经直播间将从下周一开始 7×24 小时不间断直播「Google 专题」视频,涉及:Google I/O  历年发布会、高管访谈、相关纪录片等丰富内容。

下表为小编为大家精选的内容预告↓↓↓

日期时间内容
4 月 15 日
星期一
18:00Google 历年 I/O 发布会
4 月 16 日星期二18:00Google Cloud NEXT  历年大会
4 月 17 日星期三18:00TIME100 访谈 Sundar Pichai 
4 月 18 日星期四18:00Google 首席执行官谈中美人工智能竞赛
4 月 19 日星期五18:00AlphaGo 纪录片
4 月 20 日星期六18:00Google 纪录片背后创始人的故事
4 月 21 日星期日18:00BBC 纪录片没有 Google 的世界

超神经电视台 7×24h 不间断直播,点击即可收获 AI 领域的「电子榨菜」:

http://live.bilibili.com/26483094

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1200+ 公开数据集提供国内加速下载节点

* 收录 300+ 经典及流行在线教程

* 解读 100+ AI4Science 论文案例

* 支持 500+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai