WindVE:提升大语言模型推理服务成本效益的CPU-NPU协同向量嵌入系统
检索增强生成(Retrieval-Augmented Generation)是一种利用信息检索技术提升大语言模型性能的方法。在当前的工业界,大语言模型的推理服务面临巨大的成本压力,因此优化推理过程中硬件资源的利用成为提高成本效益的关键。向量嵌入和检索在推理过程中的延迟占比较高,通常达到20%,这使得优化向量嵌入计算资源的使用尤为重要。 在这一背景下,研究人员分析了向量嵌入技术在推理服务中的部署成本,并提出了一种理论公式,通过数学推导证明,提升并发查询处理能力可以显著降低向量嵌入的部署成本。因此,研究重点放在了如何在保持高性能的同时,优化系统的并发处理能力上。 为了解决这一问题,研究人员设计了一个队列管理器,能够高效地将高峰查询从CPU卸载到其他处理器上。该管理器利用线性回归模型来确定最优的队列深度,这是影响系统效率的一个关键参数。基于这一思路,团队开发了一个名为WindVE的系统,采用CPU-NPU(神经处理单元)异构架构来处理高峰并发查询。通过这种方式,WindVE能够充分利用CPU和NPU之间的性能差异,应对流量激增的情况。 实验结果显示,WindVE的并发处理能力相比不卸载的方案提高了22.3%,与目前最流行的向量嵌入框架FlagEmbedding相比也表现出色。具体而言,WindVE不仅在处理高并发查询时表现优异,而且在保证低延迟的同时,能够有效降低系统的整体部署成本。这些成果对于推动大语言模型在实际应用中的落地具有重要意义,特别是在成本控制严格的工业环境中。 总的来说,WindVE通过引入高效的队列管理和CPU-NPU异构架构,显著提升了向量嵌入服务的成本效益和性能,为大语言模型在工业界的广泛应用提供了新的可能。 业内专家对此表示高度认可,认为该研究不仅解决了实际应用中的一个关键问题,还提供了切实可行的技术方案。研究团队来自智源社区,是一家专注于人工智能和机器学习领域的研究机构,长期致力于通过前沿技术推动行业发展。
