2024 Meet AI Compiler 北京线下聚会定档!千万级指令微调数据集 InfinityInstruct 开源

特色图像

高质量的指令数据是训练和优化大语言模型不可或缺的资源,是提升模型性能的基石。近日,北京智源人工智能研究院发布了千万级高质量指令微调数据集开源项目 InfinityInstruct ,包括基于开源数据集进行高质量筛选的数据,和通过数据合成方法构造的高质量指令数据。

本次大会开源了首批 300 万条经过模型验证的高质量中英文指令数据集 InfInstruct-3M,现已上线 hyper.ai 官网。大家可以使用该数据集,再结合自有应用数据微调基础模型,即可快速打造高质量专属中英双语对话模型。

6 月 10 日-6 月 14 日,hyper.ai 官网更新速览:

* 优质公共数据集:10 个

* 优质教程精选:2 个

* 社区文章精选:4 篇

* 热门百科词条:5 条

* 6-7 月截稿顶会:5 个

访问官网:hyper.ai

公共数据集精选

1. InfInstruct-3M 启动千万级指令微调数据集

该数据集是由北京智源人工智能研究院推出的,该项目的目标是开发一个包含数百万条指令的数据集,以支持大型语言模型的指令跟踪能力,进而提升模型性能。此版本为 InfinityInstruct-3M 指令数据集,预计在 6 月底发布最终版本。

直接使用:https://go.hyper.ai/iG7gN

2. LooGLE 长上下文理解能力基准数据集

该数据集是一个基准数据集,旨在评估和提升人工智能系统在长上下文理解方面的能力。相关成果论文已被 ACL2024 接收。
直接使用:https://go.hyper.ai/S6dSZ

3. InternVid-Full 高质量大规模视频-文本数据集

该数据集包含超 700 万条配有详细文本描述的视频,涵盖 16 种场景和约 6,000 个动作描述,总时长接近 76 万小时。相关论文在 2024 年国际表征学习大会 (ICLR 2024) 获 Spotlight 。

直接使用:https://go.hyper.ai/AnaLl

4. LoveDA 用于领域自适应语义分割的遥感土地覆盖数据集

该数据集是一个用于遥感领域的土地覆盖数据集,专门为域自适应语义分割而设计,包含 5,987 张高分辨率影像和 166,768 个标注的语义对象。

直接使用:https://go.hyper.ai/ShKyN

5. CityGen 城市建筑图像数据集

该数据集是一个专注于城市建筑的图像数据集,它通常包含大量的城市建筑图像,这些图像可以用于训练和评估计算机视觉模型,特别是在建筑物检测、语义分割、实例分割等任务上,相关成果已收录于 CVPR 2024 。

直接使用:https://go.hyper.ai/ddNqv

6. Waste Classification 可回收物及生活垃圾分类数据集

该数据集包含 15,000 张图像(每张 256×256 像素),涵盖 30 个不同类别的各种可回收材料、一般垃圾和家居用品,为垃圾分类和回收领域的研究和开发提供了丰富多样的资源。

直接使用:https://go.hyper.ai/kOiKG

7. BIRDS 525 SPECIES 525 种鸟类图像数据集

该数据集共包含 525 种鸟类,84,635 张训练图像,2,625 张测试图像,以及 2,625 张验证图像。

直接使用:https://go.hyper.ai/pfw5d

8. OpenEarthMap 全球高分辨率土地覆盖测绘基准数据集

该数据集由 5,000 张航拍和卫星图像的 220 万个片段组成,覆盖 6 大洲 44 个国家/地区的 97 个地区,并带有手动注释的 8 类土地覆盖标签,地面采样距离为 0.25-0.5 米。相关论文成果已收录于 WACV 2023 。

直接使用:https://go.hyper.ai/ubxmO

9. OpenMantra 漫画机器翻译评估数据集

该数据集是一个针对日文漫画的机器翻译评估数据集,包含五种不同风格(幻想、爱情、战斗、悬疑、生活)的漫画,数据集中共包含 1,593 个句子,848 个场景画面和 214 页漫画,由东京大学 Mantra 团队发布。

直接使用:https://go.hyper.ai/ISqUR

10. DTD 纹理识别数据集

该数据集由 5,640 张图像组成,根据人类感知分为 47 个类别,每个类别有 120 张图像,对于每一个图像还提供关键属性和联合属性列表。

直接使用:https://go.hyper.ai/aUYi3

更多公共数据集,请访问:

https://hyper.ai/datasets

公共教程精选

1. 在线运行 TripoSR 模型 Demo

TripoSR 由 Stability AI 和 Tripo AI 合作开发,可在 1 秒钟内根据单张图像生成高质量的 3D 模型,并且对算力的需求很低,因此普通用户也可以轻松在本地设备上使用它。该教程已经搭建好了环境,方便大家运行体验。

在线运行:https://go.hyper.ai/is9qe

2. LGM 大型多视角高斯模型生成 Demo

LGM 即 Large Multi-View Gaussian Model(大型多视角高斯模型),是一种创新的框架,用于从文本提示或单视图图像生成高分辨率的 3D 模型。该方法能够在 5 秒内生成 3D 对象,并将训练分辨率提升至 512,从而实现高分辨率的 3D 内容生成。该教程为 LGM 的 Demo 实现。

在线运行:https://go.hyper.ai/pFnhg

我们还建立了 Stable Diffusion 教程交流群,欢迎小伙伴们扫码备注【SD 教程】,入群探讨各类技术问题、分享应用效果~

社区文章精选

1. 活动预告 | 2024 Meet AI Compiler 北京首聚定档 7 月 6 日!

Meet AI Compiler 北京首聚将于 2024 年 7 月 6 日在中国科学院计算技术研究所一层报告厅举办!本次 Meetup 我们有幸邀请到了来自上海交通大学、中国科学院计算技术研究所、微软亚洲研究院等多位资深 AI 编译器专家。他们将为大家带来精彩的主题分享和圆桌讨论环节,与大家共同探讨 AI 编译器技术在落地场景中的应用和突破。点击「阅读原文」即可报名参与!

查看完整活动信息:https://go.hyper.ai/EA1uw

2. 刚刚!苹果发布 Apple Intelligence,官宣免费接入 ChatGPT,Siri 迎来重磅更新

上周,苹果发布了 Apple Intelligence,并介绍了 iOS 18 、 Siri 的重磅更新。此前曾盛传的苹果与 OpenAI 的合作也终于正式官宣,整合 ChatGPT 的 Siri 变得更自然、更贴近语境、更个性化,能够简化、加速日常任务。本文介绍了 Apple Intelligence 以及 Siri 、 iOS 18 的更新内容,还梳理了 Siri 的发展历程,能够进一步展示苹果 AI 能力的升级之于 Siri 的重要性。

查看完整报道:https://go.hyper.ai/kWmHC

3. 候选 CVPR 2024 最佳论文!深圳大学联手香港理工发布 MemSAM:将「分割一切」模型用于医学视频分割

由深圳大学计算机与软件学院和香港理工大学智能健康研究中心联合组成的团队提出了一种新颖的超声心动图视频分割模型 MemSAM 。该模型以少量点提示实现了最先进的性能,并以有限的注释实现了与完全监督方法相当的性能,大大降低了视频分割任务所需的提示和注释要求。本文是该研究的详细解读和分享。

查看完整报道:https://go.hyper.ai/2s73Q

4. 韩国版 AlphaFold?深度学习模型 AlphaPPIMd:用于蛋白质-蛋白质复合物构象集合探索

延世大学王建民博士等人将深度学习与生成式 AI 相结合,用基于 Transformer 的生成神经网络学习探索蛋白质-蛋白质复合物的构象集合,从多个分子动力学轨迹中学习影响蛋白质-蛋白质复合物构象和动力学机制的关键残基,为蛋白质-蛋白质结合提供机理性见解。本文是该研究的详细解读和分享。

查看完整报道:https://go.hyper.ai/MdgoV

热门百科词条精选

1. 倒数排名融合 RRF

2. 掩码语言建模 MLM

3. 学习率 Learning Rate

4. YOLOv10 实时端到端物体检测

5. Kolmogorov-Arnold 表示定理

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://hyper.ai/wiki

B 站直播预告

Jeff Dean 是谷歌的高级研究员和计算机科学家,以其在分布式系统和人工智能领域的开创性工作而闻名,包括开发 MapReduce 和 TensorFlow,是谷歌技术发展的关键人物之一。本周超神经电视台将为大家直播 Jeff Dean 相关的演讲和访谈。

下表为小编为大家精选的内容预告↓↓↓

日期时间内容
6 月 17 日星期一18:00Jeff Dean 谈机器学习的五大趋势
6 月 18 日星期二18:00让 AI 服务于每个人
6 月 19 日星期三18:00Jeff Dean 对 AI 未来的积极看法
6 月 20 日星期四18:00Jeff Dean 于斯坦福医学大数据会议的演讲
6 月 21 日星期五18:00Jeff Dean 关于深度学习的演讲
6 月 22 日星期六18:00Google Brain & Brain Residency
6 月 23 日星期日18:00Jeff Dean 探讨如何利用深度学习解决问题

超神经电视台 7×24h 不间断直播,点击即可收获 AI 领域的「电子榨菜」:

http://live.bilibili.com/26483094

一站式追踪人工智能学术顶会:https://hyper.ai/events

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1300+ 公开数据集提供国内加速下载节点

* 收录 400+ 经典及流行在线教程

* 解读 100+ AI4Science 论文案例

* 支持 500+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai