
摘要
在使用多个工作节点(worker)并行训练机器学习模型时,若各工作节点从各自独立的数据源中采集数据,且这些数据具有显著差异性,则往往能带来更好的模型性能。然而,颇具讽刺意味的是,近期对去中心化并行随机梯度下降(Decentralized Parallel Stochastic Gradient Descent, D-PSGD)的分析却依赖于一个关键假设:不同工作节点所持有的数据分布不能相差过大。针对这一矛盾,本文提出一个核心问题:能否设计一种对工作节点间数据差异性不敏感的去中心化并行随机梯度下降算法?为此,本文提出了 D²——一种专为应对工作节点间显著数据差异(即“去中心化”数据)而设计的新型去中心化并行随机梯度下降算法。D² 的核心思想是对 D-PSGD 进行方差缩减(variance reduction)的扩展。该改进将算法的收敛速率从原来的 $ O\left( \frac{\sigma}{\sqrt{nT}} + \frac{(n\zeta^2)^{1/3}}{T^{2/3}} \right) $ 提升至 $ O\left( \frac{\sigma}{\sqrt{nT}} \right) $,其中 $ \zeta^2 $ 表示不同工作节点间数据分布的方差。这一改进使得 D² 在面对工作节点间数据差异较大时仍具有良好的收敛性能,因而对数据方差具有更强的鲁棒性。我们在图像分类任务上对 D² 进行了实验评估,设定每个工作节点仅能访问有限类别标签的数据。实验结果表明,D² 在性能上显著优于传统的 D-PSGD,验证了其在真实异构数据场景下的有效性与优越性。