HyperAIHyperAI
il y a 11 jours

$D^2$ : Entraînement décentralisé sur des données décentralisées

{Ce Zhang, Ming Yan, Hanlin Tang, Ji Liu, Xiangru Lian}
$D^2$ : Entraînement décentralisé sur des données décentralisées
Résumé

Lors de l’entraînement d’un modèle d’apprentissage automatique à l’aide de plusieurs workers, chacun collectant des données depuis sa propre source, il serait avantageux que les données recueillies par les différents workers soient uniques et distinctes. Ironiquement, l’analyse récente du descente du gradient stochastique parallèle décentralisée (D-PSGD) repose sur l’hypothèse que les données hébergées sur les différents workers ne sont pas trop différentes. Dans cet article, nous nous posons la question suivante : pouvons-nous concevoir un algorithme de descente du gradient stochastique parallèle décentralisé dont la performance soit moins sensible à la variance des données entre les workers ? Nous présentons dans cet article D², un nouvel algorithme de descente du gradient stochastique parallèle décentralisé conçu pour faire face à une forte variance des données entre les workers (dans un sens imprécis, « données décentralisées »). Le cœur de D² consiste en une extension de réduction de variance du D-PSGD. Elle améliore le taux de convergence de ( O\left( \frac{\sigma}{\sqrt{nT}} + \frac{(n\zeta^2)^{1/3}}{T^{2/3}} \right) ) à ( O\left( \frac{\sigma}{\sqrt{nT}} \right) ), où ( \zeta^2 ) désigne la variance des données entre les différents workers. En conséquence, D² est robuste à la variance des données entre les workers. Nous avons évalué empiriquement D² sur des tâches de classification d’images, où chaque worker n’a accès qu’aux données d’un ensemble limité d’étiquettes, et nous constatons que D² surpasse significativement D-PSGD.

$D^2$ : Entraînement décentralisé sur des données décentralisées | Articles de recherche récents | HyperAI