2ヶ月前

$D^2$：去中心化データ上の去中心化学習

{Ce Zhang, Ming Yan, Hanlin Tang, Ji Liu, Xiangru Lian}

要約

複数のワーカーを用いて機械学習モデルを訓練する際、各ワーカーが独自のデータソースからデータを収集する場合、異なるワーカーが収集するデータが互いに異なっており、それぞれがユニークであることは有用である。しかし皮肉なことに、最近の分散型並列確率勾配降下法（D-PSGD）に関する分析は、異なるワーカーにホストされたデータがあまりに異なっていないという仮定に依存している。本論文では、次のような問いを提起する：「異なるワーカー間のデータ分散に対して、よりロバストな分散型並列確率勾配降下法を設計することは可能だろうか？」本論文では、大規模なワーカー間データ分散（いわゆる「分散型」データ）を想定した、新たな分散型並列確率勾配降下法であるD²を提案する。D²の核となるのは、D-PSGDに対する分散低減拡張である。この手法により、収束速度が $ O\left( \frac{\sigma}{\sqrt{nT}} + \frac{(n\zeta^2)^{1/3}}{T^{2/3}} \right) $ から $ O\left( \frac{\sigma}{\sqrt{nT}} \right) $ へと改善される。ここで、$\zeta^2$ は異なるワーカー間のデータ分散を表す。その結果、D²はワーカー間のデータ分散に対して堅牢（ロバスト）であることが示された。画像分類タスクにおける実験評価では、各ワーカーが限定されたラベル群のデータしかアクセスできない設定下でD²を評価したところ、D-PSGDを著しく上回ることが確認された。