一键部署 LLaMA 3 Chinese Chat,含中文训练数据集;Food2K 数据集下载,含 2 千类别,100 万张图片

特色图像

前段时间 Llama 3 的重磅开源让 AI 圈的众人都兴奋了一把,但它对纯中文的支持不是很好,不能灵活地根据中文提问切换至相应语言进行回答。

hyper.ai 本周上线了 Llama 3 中文版——LlaMA 3 Chinese Chat 的部署推理教程,有效解决了「中文问题英文回复」的尴尬,让对话更加自然流畅。教程已经将模型与环境部署完毕,只需打开 API 地址即可推理体验!

等不及了,我要试试🥳:

https://go.hyper.ai/i3r7D

同款中文训练数据集🤖:

https://go.hyper.ai/uJlfk

5 月 27 日-5 月 31 日,hyper.ai 官网更新速览:

* 优质公共数据集:10 个

*  优质教程精选:2 个

* 社区文章精选:4 篇

* 热门百科词条:5 条

* 6 月截稿顶会:4 个

访问官网:hyper.ai

公共数据集精选

1. Llama 3 中文化数据集

该数据集为 Llama 3 中文化数据集集合,数据已统一处理为 firefly 格式,可以配合 firefly 工具直接训练 Llama 3 中文模型。

直接使用:https://go.hyper.ai/uJlfk

2. LCCC 大型清洁汉语会话语料库

该数据集主要包含两部分:LCCC-base(680 万个对话)和 LCCC-large(1,200 万个对话)。研究团队设计了一套严格的数据过滤流程来确保该数据集中对话数据的质量,过滤后的数据集可以促进短文本对话建模的研究。

直接使用:https://go.hyper.ai/bDzEG

3. Food2K 大型食品识别数据集

Food2K 是一个大型食品识别数据集,包含 2,000 个食品类别和超过 100 万张图片。

直接使用:https://go.hyper.ai/TpfUJ

4. COYO-700M 图像-文本对数据集

COYO-700M 包含了 7.47 亿个图像文本对以及许多其他元属性,收集了 HTML 文档中许多信息丰富的替代文本及其相关图像对。

直接使用:https://go.hyper.ai/fWI1i

5. GLH-Bridge 大幅面遥感影像桥梁目标检测数据集

该数据集含有 6,000 张大幅面超高分遥感影像,人工精细标注了接近 6 万座跨越不同背景的桥梁实例,影像幅面为 2048×2048-16384×16384 像素,拥有旋转框和水平框两套目标检测标签。

直接使用:https://go.hyper.ai/cHPeb

6. MMDialog 多模态开放域多轮对话数据集

该数据集是一个大规模的多模态开放域对话数据集,包含 108 万个完整对话 session,超过 4,000 个对话主题,以及 153 万张非重复图像,每个对话 session 有平均 2.59 张图像。

直接使用:https://go.hyper.ai/iAbI2

7.  皮马印第安人糖尿病数据集

该数据集最初来自美国国家糖尿病、消化和肾脏疾病研究所,其目的是根据数据集中包含的某些诊断测量结果,诊断性地预测患者是否患有糖尿病。

直接使用:https://go.hyper.ai/XqJXe

8. LamaH-CE 中欧水文和环境科学大样本数据集

LamaH-CE 包含 859 个测量流域的径流和气象时间序列以及各种(集水区)属性。水文气象时间序列具有每日和每小时的时间分辨率,包括质量标记。所有气象和大多数径流时间序列的跨度超过 35 年。

直接使用:https://go.hyper.ai/UPZvA

9. CAMELS-GB 英国集水区属性和水文气象时间序列数据集

该数据集提供了英国 671 个集水区的水文气象时间序列和景观属性。它整理了英国国家河流流量档案中的河流流量、集水区属性和集水区边界以及一套新的气象时间序列和集水区属性。

直接使用:https://go.hyper.ai/KA29l

10. HQ-Edit 基于指令的图像编辑数据集

HQ-Edit 包含约 20 万个编辑示例,每个示例都有输入图像、输出图像以及详细的编辑说明。

直接使用:https://go.hyper.ai/xjahh

更多公共数据集,请访问

https://hyper.ai/datasets

公共教程精选

1.  一键部署 Llama 3-Chinese-Chat-8b Demo

该教程使用的模型为首个 Llama 3 中文版,是一个面向中文和英文用户进行了指令微调的语言模型,具备角色扮演和工具使用等多种能力。只需克隆并启动该容器,直接复制生成的 API 地址,即可对模型进行推理体验。

在线运行:https://go.hyper.ai/i3r7D

2. 在线教程丨与 Sora 技术路线相似!全球首个开源文生视频 DiT 模型 Latte 一键部署

Latte 是 2023 年 11 月开源的一种用于视频生成的创新模型,Latte 作为全世界首个开源文生视频 DiT,已经取得了很有前景的结果。该教程为 Latte 项目的效果实现 Demo 。

在线运行:https://go.hyper.ai/LFfmt

B 站直播预告

Apple 将于 6 月 10 日至 14 日举办 WWDC 2024,为了帮助大家深入了解 Apple 的相关信息,超神经 B 站直播间将持续直播「Apple 专题」视频,涉及:历年 WWDC 大会、高管访谈、相关纪录片等丰富内容。届时超神经也会在视频号和 B 站进行实时转播,立即预约不错过~

下表为小编为大家精选的下周直播内容预告↓↓↓

日期时间内容
6 月 1  日
星期一
18:00乔布斯传
6 月 2  日星期二18:00是什么让苹果成为苹果
6 月 3  日星期三18:00访谈乔布斯 vs 比尔盖茨
6 月 4  日星期四18:00iPhone 首次问世发布会
6 月 5  日星期五18:00史蒂夫·乔布斯的历史
6 月 6  日星期六18:00苹果如何在几乎破产时生存下来
6 月 7  日星期日18:00蒂姆·库克的历史

超神经电视台 7×24h 不间断直播,点击即可收获 AI 领域的「电子榨菜」:

http://live.bilibili.com/26483094

社区文章精选

1.【数据集汇总】气象局首次发布训练数据目录!CAMELS 美国天文气象数据集等上线官网

上周,中国气象局首次发布了「人工智能气象大模型训练专题数据目录」,汇集了海量气象数据。该目录现已在气象局官网提供下载。此外,为了帮助大家了解和利用相关的数据资源,HyperAI 超神经本周还汇总了 10 个优质的气象灾害数据集,以更好地推动相关研究的进展,开启气象研究新篇章。

获取详细干货:https://go.hyper.ai/kK87m

2.  分析训练全球 2k+ 水文站数据,中科院团队发布 ED-DLSTM,实现无监测数据地区洪水预测

中国科学院成都山地灾害与环境研究所欧阳朝军团队提出了一种基于 AI 的径流洪水预测模型 ED-DLSTM,通过编码流域静态属性和气象驱动,利用全球超 2 千个水文站数据进行模型训练,尝试解决全球范围内有监测数据流域和无监测数据流域径流预测问题。本文是该研究的详细解读和分享。

查看完整报道:https://go.hyper.ai/eG6H5

3. 脑机接口:是现代医学的外挂,更是瘫痪病人的豪赌

清华大学、浙江大学、斯坦福大学、布朗大学、约翰·霍普金斯大学等国内外高校围绕脑机接口进行了相关研究。本文从概念入手,介绍脑机接口的三种主要实现形式,国内外著名高校的具体研究案例,脑机接口存在的伦理与安全等。

查看完整报道:https://go.hyper.ai/W3pPf

4. 登天文学顶刊 MNRAS!中科院上海天文台利用 AI 发现 107 例中性碳吸收线,探测精度达 99.8%

中国科学院上海天文台研究员葛健团队,通过深度学习方法,在斯隆巡天三期释放的数据中搜寻中性碳吸收线,揭开了宇宙早期星系内冷气体云块成分的神秘面纱,发现了 107 例宇宙早期中性碳吸收线。本文是该研究的的详细解读和分享。

查看完整报道:https://go.hyper.ai/qirkz

热门百科词条精选

1. Epoch

2.  神经辐射场 NeRF

3.  缩放定理 Scaling Law

4. YOLOv10 实时端到端物体检测

5. Kolmogorov-Arnold Networks

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://hyper.ai/wiki

一站式追踪人工智能学术顶会:

https://hyper.ai/events

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1200+ 公开数据集提供国内加速下载节点

* 收录 300+ 经典及流行在线教程

* 解读 100+ AI4Science 论文案例

* 支持 500+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/最后推荐一个「创作者激励计划」,感兴趣的小伙伴扫码即可参与!