HyperAIHyperAI
منذ 11 أيام

$D^2$: التدريب اللامركزي على البيانات اللامركزية

{Ce Zhang, Ming Yan, Hanlin Tang, Ji Liu, Xiangru Lian}
$D^2$: التدريب اللامركزي على البيانات اللامركزية
الملخص

عند تدريب نموذج تعلم آلي باستخدام عدة عمال، حيث يجمع كل عامل بيانات من مصدر بيانات خاص به، سيكون من المفيد إذا كانت البيانات التي يجمعها العمال المختلفة فريدة ومختلفة. ومع ذلك، من المفارقة أن التحليلات الحديثة الخاصة بالانحدار التدريجي العشوائي المتوازي اللامركزي (D-PSGD) تعتمد على افتراض أن البيانات المخزنة على العمال المختلفة ليست مختلفة جدًا. في هذا البحث، نطرح السؤال التالي: هل يمكننا تصميم خوارزمية انحدار تدريجي عشوائي متوازية لامركزية أقل حساسية لتباين البيانات بين العمال؟ في هذه الورقة، نقدم D²، وهي خوارزمية جديدة للانحدار التدريجي العشوائي المتوازية اللامركزية، مصممة لمعالجة التباين الكبير في البيانات بين العمال (بشكل غير دقيق، "بيانات لامركزية"). تتمثل النواة الأساسية لـ D² في توسيع تقليل التباين لخوارزمية D-PSGD. وتحسّن معدل التقارب من ( O\left(\frac{\sigma}{\sqrt{nT}} + \frac{(n\zeta^2)^{1/3}}{T^{2/3}}\right) ) إلى ( O\left(\frac{\sigma}{\sqrt{nT}}\right) )، حيث تمثل ( \zeta^2 ) تباين البيانات بين العمال المختلفة. وبهذا، تصبح D² مقاومة لتفاوت البيانات بين العمال. وقد قمنا بتقييم D² تجريبيًا على مهام تصنيف الصور، حيث يملك كل عامل وصولًا فقط إلى بيانات مجموعة محدودة من التصنيفات، ووجدنا أن D² تتفوق بشكل كبير على D-PSGD.

$D^2$: التدريب اللامركزي على البيانات اللامركزية | أحدث الأوراق البحثية | HyperAI