Prefill 计算密集 Decode 内存密集 GPU 不该兼顾
大型语言模型推理存在两个截然不同的阶段:预填充(Prefill)和解码(Decode)。预填充阶段并行处理所有输入令牌,属于计算密集型任务,GPU 计算核心利用率极高;而解码阶段逐个生成输出令牌,属于内存带宽密集型任务,计算核心常处于闲置状态。传统的单体推理架构将两阶段挤在相同 GPU 上,导致预填充时的计算高峰与解码时的内存瓶颈相互干扰,造成算力严重浪费,用户付费的显卡在大部分时间内利用率不足三成。 为了解决这一成本与性能错配问题,业界正转向“解耦推理”架构。该模式将预填充和解码分配到独立的 GPU 池中,通过高速网络传输中间产生的键值缓存。预填充池专注于高计算能力,解码池则专注于高内存带宽,双方按需独立扩展。这种分离消除了任务间的相互干扰,显著降低了尾延迟,并允许企业根据实际需求采购不同规格的硬件,从而降低整体基础设施成本。 尽管解耦架构引入了网络传输开销,但通过 RDMA 等高速技术和分层流水线传输,有效延迟可控制在毫秒级,远低于传统架构中因排队产生的阻塞时间。目前,Perplexity、Meta、Mistral 及 NVIDIA 等公司已在生产环境中广泛部署此方案,vLLM 等主流框架也原生支持。数据显示,该架构在适当规模下可将推理成本降低 15% 至 40%,吞吐量提升数倍。 然而,解耦架构并非适用于所有场景。对于短提示词、低并发或网络带宽不足的环境,传输开销可能超过收益,此时传统单体架构更为高效。企业在部署前应评估提示词与生成的比例、键值缓存大小、前缀缓存命中率及网络基础设施。总体而言,对于大规模实时推理服务,解耦架构已成为提升效率与降低成本的关键技术路径。
