Command Palette

Search for a command to run...

2 个月前

LEGO:张量应用的时空加速器生成与优化

Yujun Lin Zhekai Zhang Song Han

LEGO:张量应用的时空加速器生成与优化

摘要

现代张量应用,尤其是基础模型与生成式人工智能应用,通常需要处理多种输入模态(包括视觉与语言),这进一步提升了对灵活加速器架构的需求。现有的框架在设计灵活性与RTL(寄存器传输级)生成效率之间面临权衡:要么仅限于少数手工编写的模板,要么无法实现RTL的自动生成功能。为应对这一挑战,我们提出了LEGO框架,该框架专为张量应用设计,能够自动生成空间架构方案,并输出可综合的RTL代码,无需依赖手工编写的RTL模板。LEGO前端基于仿射变换的架构表示方法,自动识别功能单元之间的连接关系,合成内存系统,并根据数据重用分析融合不同的空间数据流设计。LEGO后端则将硬件表示为底层原语图,进行细粒度优化,并采用一系列线性规划算法,以最优方式插入流水线寄存器,同时在切换空间数据流时有效降低未使用逻辑的开销。评估结果表明,与先前的Gemmini工作相比,LEGO可实现3.2倍的性能提升和2.4倍的能效改善,并能为生成式人工智能应用中的多种现代基础模型生成统一的硬件架构。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供