TAN Sans Brûlure : Lois d'Échelle de la DP-SGD

Les méthodes de confidentialité différentielle pour l'entraînement des réseaux neuronaux profonds (DNNs) ont connu des progrès récents, en particulier grâce à l'utilisation de lots massifs et d'augmentations de données agrégées pour un grand nombre d'étapes d'entraînement. Ces techniques nécessitent beaucoup plus de ressources informatiques que leurs homologues non confidentielles, transformant le compromis traditionnel entre confidentialité et précision en un compromis entre confidentialité, précision et calcul, et rendant la recherche d'hyperparamètres virtuellement impossible dans des scénarios réalistes. Dans ce travail, nous dissocions l'analyse de la confidentialité et le comportement expérimental de l'entraînement bruité afin d'explorer ce compromis avec des exigences computationnelles minimales. Nous utilisons d'abord les outils de la Confidentialité Différentielle de Rényi (RDP) pour souligner que le budget de confidentialité, lorsqu'il n'est pas surchargé, ne dépend que du montant total de bruit (TAN) injecté tout au long de l'entraînement. Nous établissons ensuite des lois d'échelle pour l'entraînement de modèles avec DP-SGD afin d'optimiser les hyperparamètres avec une réduction du budget computationnel supérieure à 100 fois. Nous appliquons la méthode proposée sur CIFAR-10 et ImageNet et, en particulier, nous améliorons considérablement l'état de l'art sur ImageNet avec une augmentation de 9 points en précision top-1 pour un budget de confidentialité ε=8.