Command Palette
Search for a command to run...
Yujun Lin Zhekai Zhang Song Han

摘要
现代张量应用,尤其是基础模型与生成式人工智能应用,通常需要处理多种输入模态(包括视觉与语言),这进一步提升了对灵活加速器架构的需求。现有的框架在设计灵活性与RTL(寄存器传输级)生成效率之间面临权衡:要么仅限于少数手工编写的模板,要么无法实现RTL的自动生成功能。为应对这一挑战,我们提出了LEGO框架,该框架专为张量应用设计,能够自动生成空间架构方案,并输出可综合的RTL代码,无需依赖手工编写的RTL模板。LEGO前端基于仿射变换的架构表示方法,自动识别功能单元之间的连接关系,合成内存系统,并根据数据重用分析融合不同的空间数据流设计。LEGO后端则将硬件表示为底层原语图,进行细粒度优化,并采用一系列线性规划算法,以最优方式插入流水线寄存器,同时在切换空间数据流时有效降低未使用逻辑的开销。评估结果表明,与先前的Gemmini工作相比,LEGO可实现3.2倍的性能提升和2.4倍的能效改善,并能为生成式人工智能应用中的多种现代基础模型生成统一的硬件架构。