HyperAIHyperAI
vor 15 Tagen

Kommunikationsfreies verteiltes GNN-Training mit Vertex-Cut

Kaidi Cao, Rui Deng, Shirley Wu, Edward W Huang, Karthik Subbian, Jure Leskovec
Kommunikationsfreies verteiltes GNN-Training mit Vertex-Cut
Abstract

Die Ausbildung von Graph Neural Networks (GNNs) auf realen Graphen mit mehreren Milliarden Knoten und Kanten ist äußerst herausfordernd, hauptsächlich aufgrund des erheblichen Speicherverbrauchs zur Speicherung des Graphen sowie seiner Zwischenknoten- und Kantenmerkmale. Gleichzeitig besteht ein dringender Bedarf an einer Beschleunigung des Trainingsprozesses. Eine verbreitete Strategie zur Beschleunigung besteht darin, den Graphen in viele kleinere Teilgraphen zu zerlegen, die dann über mehrere GPUs in einer oder mehreren Maschinen verteilt und parallel verarbeitet werden. Allerdings erfordern bestehende verteilte Methoden häufig und umfangreiche Kommunikation zwischen den GPUs, was erhebliche Zeitoverhead verursacht und die Skalierbarkeit sukzessive verringert. Hier stellen wir CoFree-GNN vor, einen neuartigen verteilten Framework für das Training von GNNs, der den Trainingsprozess erheblich beschleunigt, indem er kommunikationsfreies Training implementiert. Der Ansatz nutzt eine Vertex-Cut-Partitionierung, bei der im Gegensatz zur traditionellen Kantenpartitionierung die Knoten nicht aufgeteilt werden, sondern die Kanten zwischen den Partitionen aufgeteilt und die Knoteninformationen dupliziert werden, um die Struktur des ursprünglichen Graphen zu bewahren. Zudem gewährleistet der Framework eine hohe Modellgenauigkeit durch die Einführung einer Neugewichtungsmethode, die die durch die duplizierten Knoten entstehende verzerrte Graphverteilung kompensiert. Außerdem schlagen wir eine modifizierte DropEdge-Technik vor, um den Trainingsprozess weiter zu beschleunigen. Anhand einer umfassenden Reihe von Experimenten auf realen Netzwerken zeigen wir, dass CoFree-GNN das Training von GNNs gegenüber den aktuellen state-of-the-art-Verfahren bis zu zehnfach beschleunigt.

Kommunikationsfreies verteiltes GNN-Training mit Vertex-Cut | Neueste Forschungsarbeiten | HyperAI