HyperAIHyperAI
il y a 11 jours

PATE-GAN : Génération de données synthétiques avec des garanties de confidentialité différentielle

{James Jordon, Mihaela van der Schaar, Jinsung Yoon}
PATE-GAN : Génération de données synthétiques avec des garanties de confidentialité différentielle
Résumé

L’apprentissage automatique a le potentiel d’aider de nombreuses communautés à exploiter les grands ensembles de données de plus en plus accessibles. Malheureusement, une grande partie de ce potentiel reste inexplorée, car cela exigerait de partager les données d’une manière qui compromettrait la vie privée. Dans cet article, nous étudions une méthode visant à garantir la confidentialité (différentielle) du générateur dans le cadre des réseaux antagonistes génératifs (GAN). Le modèle résultant peut être utilisé pour générer des données synthétiques sur lesquelles des algorithmes peuvent être entraînés et validés, ou sur lesquelles des compétitions peuvent être organisées, sans compromettre la confidentialité de l’ensemble de données d’origine. Notre approche modifie le cadre de l’agrégation privée des enseignants en ensemble (PATE) et l’applique aux GAN. Notre cadre modifié (que nous appelons PATE-GAN) permet de borner étroitement l’influence de tout échantillon individuel sur le modèle, ce qui conduit à des garanties de confidentialité différentielle serrées, et par conséquent à une meilleure performance que celle des modèles offrant les mêmes garanties. Nous examinons également la qualité des données synthétiques sous un nouvel angle : nous affirmons que, pour que ces données soient utiles aux chercheurs en apprentissage automatique, le classement relatif de deux algorithmes (entraînés et testés) sur l’ensemble de données synthétiques doit être identique à leur classement relatif (lorsqu’ils sont entraînés et testés) sur l’ensemble de données d’origine. Nos expériences menées sur divers ensembles de données démontrent que PATE-GAN surpasse de manière cohérente la méthode de pointe en matière de cette notion, ainsi que d’autres mesures de qualité des données synthétiques.