$D^2$: Dezentrales Training über dezentrale Daten

Beim Training eines maschinellen Lernmodells mit mehreren Workern, die jeweils Daten aus eigenen Datenquellen sammeln, wäre es vorteilhaft, wenn die von den verschiedenen Workern gesammelten Daten einzigartig und unterschiedlich wären. Ironischerweise beruht die aktuelle Analyse des dezentralen parallelen stochastischen Gradientenabstiegs (D-PSGD) auf der Annahme, dass die auf den verschiedenen Workern gehosteten Daten nicht zu unterschiedlich sind. In dieser Arbeit stellen wir die Frage: Können wir einen dezentralen parallelen stochastischen Gradientenabstiegs-Algorithmus entwerfen, der weniger empfindlich gegenüber der Datenvarianz zwischen den Workern ist? In dieser Arbeit präsentieren wir D², einen neuartigen dezentralen parallelen stochastischen Gradientenabstiegs-Algorithmus, der speziell für große Datenvarianz zwischen Workern (ungefähr: „dezentrale“ Daten) konzipiert ist. Der Kern von D² ist eine Varianzreduktionserweiterung von D-PSGD. Sie verbessert die Konvergenzrate von $O\left({\sigma \over \sqrt{nT}} + {(n\zeta^2)^{1/3} \over T^{2/3}}\right)$ auf $O\left({\sigma \over \sqrt{nT}}\right)$, wobei $\zeta^2$ die Varianz der Daten über die verschiedenen Workern beschreibt. Dadurch ist D² robust gegenüber der Datenvarianz zwischen den Workern. Wir haben D² empirisch anhand von Aufgaben der Bildklassifikation evaluiert, bei denen jeder Worker Zugriff auf Daten nur einer begrenzten Menge an Klassen hat, und festgestellt, dass D² D-PSGD deutlich übertrifft.