Helix并行性携手NVIDIA Blackwell突破百万标记数据解码瓶颈,大幅提升AI实时交互能力
随着现代AI应用越来越依赖于结合大量参数和百万级上下文窗口的模型,如何在不牺牲实时互动性的前提下,扩展模型规模并保持长时间的对话上下文,成为了一个挑战。不论是跟踪数月对话的AI助手,还是处理海量法规案例数据的法律顾问系统,以及导航大型代码仓库的编程副驾工具,保持长期上下文的一致性和相关性至关重要。与此同时,用户对于快速响应的需求也在不断提升。 为了解决这一问题,NVIDIA推出了配备FP4计算功能和高带宽大型NVLink域的Blackwell系统,而Helix Parallelism则是在这一背景下设计的一种解决方案。Helix Parallelism可以在相同的解码延迟条件下,实现最多32倍的并发用户数增长,显著提升了多百万级上下文模型的解码能力。 在支持实时大规模解码时,系统必须克服两大瓶颈:KV缓存流传输和前馈网络(Feed Forward Network,简称FFN)权重加载。传统的并行策略如张量并行(Tensor Parallelism,简称TP),虽然可以通过分散权重加载来减少FFN停滞时间,但效果有限。特别是当TP超过KV头数量时,系统需要在每个GPU上复制多百万个令牌的KV缓存,从而占用大量DRAM带宽,限制了扩展性。 Helix Parallelism是一种混合分片策略,通过时间上的流水线将注意力机制和FFN的并行策略解耦,有效地解决了KV缓存和FFN权重读取瓶颈。它在单个Transformer层中协调注意力和FFN的执行,采用了KV并行(Key-Value Parallelism,简称KVP)和张量并行(TPA)相结合的方式,使得N=KVPxTPA个GPU可以协同完成注意力计算,而不会在各GPU之间重复KV缓存。 在注意力阶段,Helix通过沿序列维度将多百万个令牌的KV缓存分片到KVP GPU上,并在注意力头之间应用张量并行(TPA),确保每个KVP GPU持有其本地KV头相关的所有查询头,并进行本地FlashAttention计算。这种策略在不增加内存和带宽开销的情况下,提高了KV缓存的效率。之后,通过沿查询头维度的全对全通信(All-to-All)交换部分注意力输出和对数和指数标量,实现了高效的SoftMax规范化输出重建。 此外,Helix还引入了细粒度的流水线技术——Helix重叠管道批处理(HOP-B),该技术在批处理间重叠通信和计算,进一步减少了总体延迟时间(Time to Live,简称TTL)。当一个令牌的注意力输出计算完成后,Helix立即启动该令牌的全对全交换,同时开始下一个令牌的注意力计算。 在前馈网络阶段,相同的N个GPU被重新配置以执行FFN块,避免了空闲时间。前注意力线性投影已经按隐藏维度在N个GPU上分隔,可以立即在张量并行模式下运行。每个GPU使用自己的权重分片进行局部矩阵乘法,并参与跨TP=N个GPU的全部减少运算(All-Reduce)以构建正确的输出。 后续,Helix根据模型类型再次配置这些N个GPU,用于FFN计算。在密集模型中使用1D张量并行(TPF),在MoE(Mixture of Experts)模型中使用2D张量并行和专家并行(TPFxEP)网格。 在解码过程中,每个新令牌都会广播到所有KVP GPU进行查询计算。为了防止DRAM热点,Helix以轮询方式分配KV缓存更新,确保均匀的KV增长,平衡各个GPU的内存使用,并保持一致的吞吐率,无论序列长度或批处理大小如何变化。 Helix Parallelism在NVIDIA黑威尔系统的模拟测试中展示了出色的表现。图4显示了DeepSeek-R1 671B模型在百万级上下文长度解码时的归一化吞吐量-延迟帕累托前沿。通过在所有可用设备上分片KV缓存和FFN权重,极大地减轻了DRAM压力,提高了计算效率。Helix不仅推动了吞吐量-延迟的帕累托前沿,还在低延迟情况下实现了更高的吞吐量。 Helix Parallelism的推出,为大容量上下文LLM的实时解码提供了一种全新的并行处理范式,未来将在更多的推理框架中得到应用。 Helix Parallelism的创新之处在于它有效地解决了长期以来困扰大型语言模型的大规模上下文解码问题,通过精细的并行策略优化和硬件加速,显著提升了实时性的用户体验。这对于需要处理大量历史数据的应用场景尤为重要。NVIDIA作为全球领先的GPU制造商,一直在推动AI领域的技术革新,此次的Helix Parallelism无疑是其又一大突破。