9 天前
BOLT:一种在通用CPU硬件上自动化训练与部署大规模搜索与推荐模型的深度学习框架
Nicholas Meisburger, Vihan Lakshman, Benito Geordie, Joshua Engels, David Torres Ramos, Pratik Pranav, Benjamin Coleman, Benjamin Meisburger, Shubh Gupta, Yashwanth Adunukota, Tharun Medini, Anshumali Shrivastava

摘要
在通用CPU硬件上实现大规模神经网络的高效训练与推理,对于推动深度学习(DL)能力的普及具有重要的现实意义。目前,训练包含数亿至数十亿参数的大型模型,通常依赖于专用硬件加速器(如GPU),而这类设备仅少数财力雄厚的机构能够负担。此外,这些模型的训练与部署往往伴随着显著的碳足迹,带来严峻的环境挑战。本文提出一种名为BOLT的稀疏深度学习库,旨在通过在标准CPU硬件上训练大规模搜索与推荐模型,逐步应对上述难题。BOLT为用户提供了灵活且高层次的API,其设计风格与现有主流深度学习框架保持一致,便于用户快速上手。通过自动调优特定超参数,BOLT进一步抽象了稀疏网络训练中的算法细节,显著降低了使用门槛。我们在多个信息检索任务上对BOLT进行了评估,包括商品推荐、文本分类、图神经网络以及个性化建模等。实验结果表明,BOLT在保持与当前最先进方法相当性能的同时,实现了成本与能耗的大幅降低,并将推理速度提升了一个数量级。目前,BOLT已成功部署于多家企业,用于解决关键业务问题,本文还特别呈现了一则在电子商务领域的客户应用案例。