15 天前

无通信分布式图神经网络训练方法:基于顶点割

Kaidi Cao, Rui Deng, Shirley Wu, Edward W Huang, Karthik Subbian, Jure Leskovec
无通信分布式图神经网络训练方法:基于顶点割
摘要

在包含数十亿个节点和边的真实世界图上训练图神经网络(GNNs)面临巨大挑战,主要源于存储图结构及其中间节点和边特征所需的庞大内存,同时亟需加速训练过程。目前常见的加速方法是将图划分为多个较小的子图,并将其分布到一台或多台机器中的多个GPU上并行处理。然而,现有的分布式方法通常需要频繁且大量的跨GPU通信,导致显著的时间开销,并使得系统可扩展性逐渐下降。为此,本文提出一种新型的分布式GNN训练框架——CoFree-GNN,通过实现无通信训练显著提升训练效率。该框架采用顶点切割(Vertex Cut)划分策略,即不通过切割节点之间的边来划分图,而是对边进行划分,并复制节点信息以保留图的原始结构。此外,为应对因节点复制导致的图分布失真问题,框架引入了一种重加权机制,有效维持了模型的高精度。我们还提出了一种改进的DropEdge技术,进一步加速训练过程。在多个真实世界网络上的大量实验表明,与现有最先进的GNN训练方法相比,CoFree-GNN可将GNN训练速度提升高达10倍。

无通信分布式图神经网络训练方法:基于顶点割 | 最新论文 | HyperAI超神经