HyperAIHyperAI
il y a 2 mois

Vers l'entraînement à l'échelle d'ImageNet avec la protection différentielle de la vie privée

Kurakin, Alexey ; Song, Shuang ; Chien, Steve ; Geambasu, Roxana ; Terzis, Andreas ; Thakurta, Abhradeep
Vers l'entraînement à l'échelle d'ImageNet avec la protection différentielle de la vie privée
Résumé

La confidentialité différentielle (CD) est devenue la norme de facto pour l'entraînement de modèles d'apprentissage automatique (AA), y compris les réseaux neuronaux, tout en garantissant la confidentialité des exemples individuels dans l'ensemble d'entraînement. Malgré une littérature abondante sur la manière d'entraîner des modèles d'AA avec la confidentialité différentielle, il reste extrêmement difficile d'entraîner des réseaux neuronaux de grande taille et réels avec à la fois une précision raisonnable et une protection de la vie privée.Nous avons entrepris d'étudier comment relever ce défi, en utilisant la classification d'images sur ImageNet comme exemple emblématique d'une tâche d'AA qui est actuellement très difficile à résoudre avec précision dans le cadre de la CD. Ce document partage les premières leçons tirées de nos efforts, dans l'espoir qu'il inspirera et informera d'autres chercheurs pour explorer l'entraînement à grande échelle avec CD. Nous présentons des approches qui permettent d'accélérer l'entraînement avec CD, ainsi que des types de modèles et des paramètres du processus d'entraînement qui fonctionnent mieux dans ce contexte. Ensemble, les méthodes que nous discutons nous permettent d'entraîner un Resnet-18 avec CD à une précision de $47,9\%$ et des paramètres de confidentialité $\epsilon = 10$, $\delta = 10^{-6}$. C'est une amélioration significative par rapport à l'entraînement "naïf" de modèles ImageNet avec CD, mais cela reste loin des $75\%$ de précision que le même réseau peut atteindre sans protection de la vie privée. Le modèle que nous utilisons a été pré-entraîné sur l'ensemble de données Places365 comme point de départ. Nous mettons notre code à disposition sur https://github.com/google-research/dp-imagenet, appelant les autres à s'appuyer sur cette nouvelle référence pour améliorer davantage la CD à grande échelle.

Vers l'entraînement à l'échelle d'ImageNet avec la protection différentielle de la vie privée | Articles de recherche récents | HyperAI