PyTorch-BigGraph: Ein großes System für Graph-Embeddings

Grapheneinbettungsverfahren erzeugen unüberwachte Knotenmerkmale aus Graphen, die anschließend für eine Vielzahl von Maschinelles-Lernen-Aufgaben verwendet werden können. Moderne Graphen, insbesondere in industriellen Anwendungen, enthalten Milliarden von Knoten und Billionen von Kanten, was die Kapazität bestehender Einbettungssysteme übersteigt. Wir stellen PyTorch-BigGraph (PBG) vor, ein Einbettungssystem, das mehrere Modifikationen an traditionellen Multi-Relation-Einbettungssystemen vornimmt, um es skalierbar zu machen für Graphen mit Milliarden von Knoten und Billionen von Kanten. PBG verwendet Graphpartitionierung, um beliebig große Einbettungen auf einem einzelnen Rechner oder in einer verteilten Umgebung zu trainieren. Wir zeigen vergleichbare Leistungen mit bestehenden Einbettungssystemen bei gängigen Benchmarks und ermöglichen gleichzeitig die Skalierung auf beliebig große Graphen sowie die Parallelisierung auf mehreren Rechnern. Wir trainieren und evaluieren Einbettungen auf mehreren großen sozialen Netzwerkgraphen sowie dem vollständigen Freebase-Datensatz, der über 100 Millionen Knoten und 2 Milliarden Kanten enthält.