HyperAI超神经

4 场 Meetup 、 3 个城市、 19 位嘉宾、 1k+ 行业从业者、累计 100w+ 曝光，2023 年 AI 编译器社区小小刷新了一下存在感，我们在非常细分的领域里找到了最为垂直的开发者和工程师，从 0 到 1 建立起一个个小据点，搭建交流平台、促成企内合作、连通生态上下游。

2024 年虽然已经过半，在大模型持久占据技术圈「热搜榜单」的今天，我们将于 7 月 6 日（周六）在中国科学院计算技术研究所，举办 Meet AI Compiler 技术沙龙的第 5 期线下聚会。

本次 Meetup 分为技术分享和圆桌讨论两个环节，嘉宾分别来自上海交通大学、中国科学院计算技术研究所、微软亚洲研究院、北京智源人工智能研究院，期待新的聚会能为大家带来新的技术收获，结交新的同行好友~

活动详情

⏰ 时间：7 月 6 日（周六）13:30-18:00

地点：北京市海淀区科学院南路 6 号中国科学院计算技术研究所一层报告厅

人数：200（现场座位有限，请尽早报名）

报名：扫描下方二维码报名

扫码备注「AI 编译器」加入活动群：

议程：

嘉宾及议程

环节 1 分享嘉宾

分享主题：MLCEngine: A Universal LLM Deployment Engine

内容简介：本次分享将介绍 MLCEngine，一个能够在不同平台上 Universally Deployment 的 LLM 引擎。 MLCEngine 既在服务器上具备 high-throughput, low-latency 的 LLM serving 能力，同时又支持在各种本地环境下无缝部署当今高质量的大语言模型。

观看本场分享，你将了解：

1. MLCEngine 的设计理念和使用方式

2. Universally Deployment 的意义

3. 针对 LLM 推理引擎发展的思考

分享主题：ElasticRoom: Multi-Tenant DNN Inference Engine via Co-design with Resource-constrained Compilation and Strong Priority Scheduling

内容简介：运行时软件中的 GPU 资源划分机制已广泛应用于作业调度程序和多租户计算系统，以提高资源利用率和吞吐量。然而，现有的 GPU 资源划分机制在面临批量异构 DNN 推理请求的时候无法同时提高 GPU 资源利用率并确保实时请求的低延时。我们提出了一种创新的多租户 DNN 推理引擎 ElasticRoom，它基于 TVM 构建了资源约束编译并通过优先级调度同时实现高 GPU 利用率和实时请求的低延迟。

观看本场分享，你将了解：

1. GPU 资源管理与任务调度

2. 基于 TVM 的资源约束编译

分享主题：基于块 (Tile) 抽象的高效深度学习编译系统

内容简介：随着深度学习算法和硬件的快速发展，业界对高效、快速的模型部署有了更高要求，深度学习编译器成为了一种新的连接模型计算表达和底层硬件执行的途径。然而，如何在不同硬件上高效支持快速发展的深度学习应用仍然存在很多挑战。本次分享将介绍我们基于统一的块 (Tile) 抽象，在深度学习编译领域的一系列探索性工作。

观看本场分享，你将了解：
1. 基于块 (Tile) 抽象的深度学习编译栈

2. 在深度学习应用场景，如何通过块 (Tile) 抽象优化全局访存效率

3. 在深度学习应用场景，如何通过块 (Tile) 抽象支持低精度深度学习计算

分享主题：基于 Triton 的大模型算子库 FlagGems 创新实践

内容简介：基于 OpenAI 的 Triton 语言，我们开发了高性能的通用算子库 FlagGems，为 PyTorch 框架下的大模型提供推理与训练加速。针对 Triton 的编程特点，我们应用了运行时优化和自动代码生成两项技术创新，拓展了算子的表达能力，提高了算子的性能表现。

观看本场分享，你将了解：

1. 认识 Triton 编程语言，接触 Triton 开源生态

2. 了解 FlagGems 算子库及其开发进展

3. 了解 FlagGems 中应用的运行时优化技术和自动代码生成技术

环节 2 圆桌环节

圆桌主题：Transformer 时代的跨异构芯片编译优化

主办方及合作伙伴

HyperAI 超神经是国内领先的人工智能及高性能计算社区，旨在通过提供数据集加速下载、在线教程演示、论文深度解读、顶会日历集成等多种基础设施，助力中国的数据科学与⼈⼯智能⾏业的开发者、爱好者学习、理解、实践，与社区⼀起构建⼈⼯智能的未来。目前超神经官网已经上线数千个经典及优质公开数据集和教程，并运营国内最活跃的 AI 编译器社区，HyperAI 超神经也是本系列活动的唯一主办方。

访问官网：https://hyper.ai/

OpenBayes 贝式计算是国内领先的高性能计算服务提供商，通过为新一代异构芯片嫁接经典软件生态及机器学习模型，进而为工业企业及高校科研提供更加快速、易用的数据科学计算产品，其产品已被数十家大型工业场景或头部科研院所所采用。

访问官网：https://openbayes.com/

MLC.AI 社区成立于 2022 年 6 月，并由 Apache TVM 主要发明者、机器学习领域著名的青年学者陈天奇，带领团队上线了 MLC 线上课程，系统介绍了机器学习编译的关键元素以及核心概念。

2022 年 11 月，在 MLC.AI 社区志愿者的共同努力下，首个完整的 TVM 中文文档上线，并成功托管至 HyperAI 超神经官网，进一步为对机器学习编译感兴趣的国内开发者，提供了接触并学习一门新技术的基础设置——文档。

MLC 线上课程：https://mlc.ai/

TVM 中文文档：https://tvm.hyper.ai/

中国科学院计算技术研究所（简称计算所）创建于 1956 年，是中国第一个专门从事计算机科学技术综合性研究的学术机构。计算所研制成功了我国第一台通用数字电子计算机，并形成了我国高性能计算机的研发基地，我国首枚通用 CPU 芯片也诞生在这里。

计算所是我国计算机事业的摇篮。伴随着计算所的发展，先后为国家培养了几百名我国最早的计算技术专业人员，在这里工作或学习过的院士有二十余位。随着学科与技术发展，从计算所陆续分离出西安微电子所、计算中心、软件所、网络中心、微电子所和信工所等多个研究机构，孵化了联想、曙光、龙芯、寒武纪等高技术企业。

中国计算机学会高性能计算专业委员会（Technical Committee of HPC ,China Computer Federation 缩写 CCF TCHPC），于 2005 年经中国计算机学会批准成立，作为中国计算机学会下属专业委员会，是高性能计算学术研究、组织高性能计算领域学术会议、产学应用服务的权威性机构。

本着「打造学术平台、促进产业交流、推进应用落地、平衡软硬件生态、服务行业发展、沟通产学研用」原则使命，致力于推进中国高性能计算领域的研究与发展，构建高性能计算学术、产业合作交流平台，对支撑科技发展创新，促进社会进步，增强我国综合国力和国际竞争力有着不可替代的重要作用和意义。

2011 年 6 月，中国科学院正式成立青年创新促进会（以下简称「青促会」），这是中科院对全院 35 岁以下青年科技人才进行综合培养的创新举措，旨在通过有效组织和支持，团结、凝聚全院青年科技工作者，拓宽学术视野，促进相互交流和学科交叉，提升科研活动组织能力，培养造就新一代学术技术带头人。

活动支持

活动行：扫码跳转至活动行报名

扫码备注「2024 AI 编译器」加入活动群

考虑到本场活动的场地空间情况，我们仅开放了 200 个到场名额，建议大家尽早报名锁定席位。

7 月 6 日 13:30-17:40，期待新老朋友相聚！

活动详情

⏰ 时间：7 月 6 日（周六）13:30-18:00

地点：北京市海淀区科学院南路 6 号中国科学院计算技术研究所一层报告厅

人数：200（现场座位有限，请尽早报名）

报名：扫描下方二维码报名

扫码备注「AI 编译器」加入活动群：

议程：

嘉宾及议程

环节 1 分享嘉宾

分享主题：MLCEngine: A Universal LLM Deployment Engine

观看本场分享，你将了解：

1. MLCEngine 的设计理念和使用方式

2. Universally Deployment 的意义

3. 针对 LLM 推理引擎发展的思考

分享主题：ElasticRoom: Multi-Tenant DNN Inference Engine via Co-design with Resource-constrained Compilation and Strong Priority Scheduling

观看本场分享，你将了解：

1. GPU 资源管理与任务调度

2. 基于 TVM 的资源约束编译

分享主题：基于块 (Tile) 抽象的高效深度学习编译系统

观看本场分享，你将了解：
1. 基于块 (Tile) 抽象的深度学习编译栈

2. 在深度学习应用场景，如何通过块 (Tile) 抽象优化全局访存效率

3. 在深度学习应用场景，如何通过块 (Tile) 抽象支持低精度深度学习计算

分享主题：基于 Triton 的大模型算子库 FlagGems 创新实践

观看本场分享，你将了解：

1. 认识 Triton 编程语言，接触 Triton 开源生态

2. 了解 FlagGems 算子库及其开发进展

3. 了解 FlagGems 中应用的运行时优化技术和自动代码生成技术

环节 2 圆桌环节

圆桌主题：Transformer 时代的跨异构芯片编译优化

主办方及合作伙伴

访问官网：https://hyper.ai/

访问官网：https://openbayes.com/

MLC 线上课程：https://mlc.ai/

TVM 中文文档：https://tvm.hyper.ai/

活动支持

活动行：扫码跳转至活动行报名

扫码备注「2024 AI 编译器」加入活动群

考虑到本场活动的场地空间情况，我们仅开放了 200 个到场名额，建议大家尽早报名锁定席位。

7 月 6 日 13:30-17:40，期待新老朋友相聚！

活动详情

⏰ 时间：7 月 6 日（周六）13:30-18:00

地点：北京市海淀区科学院南路 6 号中国科学院计算技术研究所一层报告厅

人数：200（现场座位有限，请尽早报名）

报名：扫描下方二维码报名

扫码备注「AI 编译器」加入活动群：

议程：

嘉宾及议程

环节 1 分享嘉宾

分享主题：MLCEngine: A Universal LLM Deployment Engine

观看本场分享，你将了解：

1. MLCEngine 的设计理念和使用方式

2. Universally Deployment 的意义

3. 针对 LLM 推理引擎发展的思考

分享主题：ElasticRoom: Multi-Tenant DNN Inference Engine via Co-design with Resource-constrained Compilation and Strong Priority Scheduling

观看本场分享，你将了解：

1. GPU 资源管理与任务调度

2. 基于 TVM 的资源约束编译

分享主题：基于块 (Tile) 抽象的高效深度学习编译系统

观看本场分享，你将了解：
1. 基于块 (Tile) 抽象的深度学习编译栈

2. 在深度学习应用场景，如何通过块 (Tile) 抽象优化全局访存效率

3. 在深度学习应用场景，如何通过块 (Tile) 抽象支持低精度深度学习计算

分享主题：基于 Triton 的大模型算子库 FlagGems 创新实践

观看本场分享，你将了解：

1. 认识 Triton 编程语言，接触 Triton 开源生态

2. 了解 FlagGems 算子库及其开发进展

3. 了解 FlagGems 中应用的运行时优化技术和自动代码生成技术

环节 2 圆桌环节

圆桌主题：Transformer 时代的跨异构芯片编译优化

主办方及合作伙伴

访问官网：https://hyper.ai/

访问官网：https://openbayes.com/

MLC 线上课程：https://mlc.ai/

TVM 中文文档：https://tvm.hyper.ai/

活动支持

活动行：扫码跳转至活动行报名

扫码备注「2024 AI 编译器」加入活动群

考虑到本场活动的场地空间情况，我们仅开放了 200 个到场名额，建议大家尽早报名锁定席位。

7 月 6 日 13:30-17:40，期待新老朋友相聚！

Command Palette

AI 编译器技术分享会：上海交大/中科院计算所/微软亚研/智源，他们来了！

嘉宾及议程

主办方及合作伙伴

Command Palette

AI 编译器技术分享会：上海交大/中科院计算所/微软亚研/智源，他们来了！

嘉宾及议程

主办方及合作伙伴

相关报道

CUDA 初始团队成员锐评 cuTile「专打」Triton，Tile 范式能否重塑 GPU 编程生态竞争格局

完整议程｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 齐聚上海，深度拆解算子优化的全链路实践

技术沙龙｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 齐聚上海，深度拆解算子优化的全链路实践

完整回放｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 深度拆解 AI 编译器技术实践

明日开讲！上海创智/TileAI/华为/先进编译实验室/AI9Stars 齐聚上海，纯干货的 AI 编译器实战经验分享

FLUX.2‑klein‑4B：步数蒸馏实现 4 步亚秒级图像生成，在消费级 GPU 上体验实时交互；Vehicles OpenImages 数据集：专注车辆检测与定位

三维视觉新突破：字节 Seed 推出 DA3，实现任意视角重建视觉空间；7w+真实工业环境数据！CHIP 填补 6D 姿态估计工业数据空白

实战经验丨基于 HyperAI 云算力平台的 Elementwise 算子优化实践

从 9,874 篇文献到 1.5 万晶体结构，MOF-ChemUnity 重构 MOF 全景知识，推动材料发现进入「可解释 AI」时代

Command Palette

AI 编译器技术分享会：上海交大/中科院计算所/微软亚研/智源，他们来了！

嘉宾及议程

主办方及合作伙伴

相关报道

CUDA 初始团队成员锐评 cuTile「专打」Triton，Tile 范式能否重塑 GPU 编程生态竞争格局

完整议程｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 齐聚上海，深度拆解算子优化的全链路实践

技术沙龙｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 齐聚上海，深度拆解算子优化的全链路实践

完整回放｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 深度拆解 AI 编译器技术实践

明日开讲！上海创智/TileAI/华为/先进编译实验室/AI9Stars 齐聚上海，纯干货的 AI 编译器实战经验分享

FLUX.2‑klein‑4B：步数蒸馏实现 4 步亚秒级图像生成，在消费级 GPU 上体验实时交互；Vehicles OpenImages 数据集：专注车辆检测与定位

三维视觉新突破：字节 Seed 推出 DA3，实现任意视角重建视觉空间；7w+真实工业环境数据！CHIP 填补 6D 姿态估计工业数据空白

实战经验丨基于 HyperAI 云算力平台的 Elementwise 算子优化实践

从 9,874 篇文献到 1.5 万晶体结构，MOF-ChemUnity 重构 MOF 全景知识，推动材料发现进入「可解释 AI」时代

相关报道

CUDA 初始团队成员锐评 cuTile「专打」Triton，Tile 范式能否重塑 GPU 编程生态竞争格局

完整议程｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 齐聚上海，深度拆解算子优化的全链路实践

技术沙龙｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 齐聚上海，深度拆解算子优化的全链路实践

完整回放｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 深度拆解 AI 编译器技术实践

明日开讲！上海创智/TileAI/华为/先进编译实验室/AI9Stars 齐聚上海，纯干货的 AI 编译器实战经验分享

FLUX.2‑klein‑4B：步数蒸馏实现 4 步亚秒级图像生成，在消费级 GPU 上体验实时交互；Vehicles OpenImages 数据集：专注车辆检测与定位

三维视觉新突破：字节 Seed 推出 DA3，实现任意视角重建视觉空间；7w+真实工业环境数据！CHIP 填补 6D 姿态估计工业数据空白

实战经验丨基于 HyperAI 云算力平台的 Elementwise 算子优化实践

从 9,874 篇文献到 1.5 万晶体结构，MOF-ChemUnity 重构 MOF 全景知识，推动材料发现进入「可解释 AI」时代

相关报道

CUDA 初始团队成员锐评 cuTile「专打」Triton，Tile 范式能否重塑 GPU 编程生态竞争格局

完整议程｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 齐聚上海，深度拆解算子优化的全链路实践

技术沙龙｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 齐聚上海，深度拆解算子优化的全链路实践

完整回放｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 深度拆解 AI 编译器技术实践

明日开讲！上海创智/TileAI/华为/先进编译实验室/AI9Stars 齐聚上海，纯干货的 AI 编译器实战经验分享

FLUX.2‑klein‑4B：步数蒸馏实现 4 步亚秒级图像生成，在消费级 GPU 上体验实时交互；Vehicles OpenImages 数据集：专注车辆检测与定位

三维视觉新突破：字节 Seed 推出 DA3，实现任意视角重建视觉空间；7w+真实工业环境数据！CHIP 填补 6D 姿态估计工业数据空白

实战经验丨基于 HyperAI 云算力平台的 Elementwise 算子优化实践

从 9,874 篇文献到 1.5 万晶体结构，MOF-ChemUnity 重构 MOF 全景知识，推动材料发现进入「可解释 AI」时代