HyperAI超神经
Back to Headlines

UCCL技术突破AI训练网络拥塞,优化编码效率

5 days ago

AI训练过程中,网络拥堵是影响效率的关键问题。为解决这一难题,研究人员提出了UCCL(User-Controllable Collective Communication Library)技术,它通过更智能的接收端控制方式,优化大规模GPU之间的通信。 在AI训练中,数千块GPU需要实时同步数据,尤其是像GPT-4这样的大模型,每轮训练都要在节点间传输大量数据,导致网络成为性能瓶颈。传统网络协议如RoCEv2、DCQCN和PFC主要用于存储和交易类任务,但面对AI训练的突发性、集中式数据传输时,常常反应滞后,引发拥塞甚至停顿。 UCCL在NCCL(用于GPU通信的库)和网卡驱动之间引入了一个智能的软件层,提前掌握通信模式,避免数据洪峰。它通过接收端控制流量,根据接收方队列状态决定发送时机,防止多个GPU同时发送数据造成拥堵。此外,UCCL使用共享队列对(QP)代替传统硬件队列对,减少ECMP哈希冲突,提高传输效率。 测试显示,UCCL在多种GPU集群上均表现出色,显著缩短了AllReduce操作时间,减少了网络拥塞。它无需更换现有网络设备,即可在现有基础设施上运行,便于部署。 随着AI模型规模持续扩大,UCCL提供了一种更高效、更稳定的通信解决方案,帮助训练系统在高负载下保持稳定运行。

Related Links