نحو التدريب بحجم ImageNet مع الخصوصية التفاضلية

الخصوصية التفاضلية (DP) هي المعيار الفعلي لتدريب نماذج التعلم الآلي (ML)، بما في ذلك الشبكات العصبية، مع ضمان خصوصية الأمثلة الفردية في مجموعة التدريب. رغم وجود أدبيات غنية حول كيفية تدريب نماذج التعلم الآلي بالخصوصية التفاضلية، لا يزال من الصعب للغاية تدريب شبكات عصبية حقيقية وكبيرة بمستوى دقة وخصوصية معقولين.بدأنا في دراسة كيفية القيام بذلك، باستخدام تصنيف صور ImageNet كمثال نموذجي لمهمة تعلم آلي تواجه تحديًا كبيرًا في تحقيق الدقة مع الخصوصية التفاضلية حاليًا. يقدم هذا البحث الدروس الأولية من جهودنا، على أمل أن يلهم ويوجه باقي الباحثين للبحث عن تدريب الخصوصية التفاضلية على نطاق واسع. نوضح الأساليب التي تساعد في جعل تدريب الخصوصية التفاضلية أسرع، بالإضافة إلى أنواع النماذج وإعدادات عملية التدريب التي تعمل بشكل أفضل في الإطار الخاص بالخصوصية التفاضلية. مجتمعةً، الطرق التي نناقشها تمكننا من تدريب شبكة Resnet-18 بخصوصية تفاضلية بدقة $47.9\%$ ومعاملي خصوصية $\epsilon = 10, \delta = 10^{-6}$. هذه نتيجة محسنة بشكل كبير مقارنة بتدريب "الساذج" للنماذج ImageNet بالخصوصية التفاضلية، ولكنها بعيدة كل البعد عن نسبة الدقة $75\%$ التي يمكن الحصول عليها من خلال نفس الشبكة دون الخصوصية. استخدمنا النموذج الذي تم تدريبه مسبقًا على مجموعة بيانات Places365 كنقطة بداية. نشارك رمز البرامج الخاص بنا على https://github.com/google-research/dp-imagenet، وندعو الآخرين لبناء أسس جديدة عليه لتحسين الخصوصية التفاضلية على نطاق أوسع.