Par Super Neuro
Ces derniers jours, une affaire majeure impliquant une suspicion de fuite de données a été révélée en Chine. Pas moins de 11 entreprises ont été impliquées et 4 000 Go et des dizaines de milliards de données d'information citoyenne ont été saisis. Parmi elles, des entreprises nationales de big data bien connues ont également été touchées.
Les données impliquées dans cette affaire sont hautement privées. Les données URL Internet impliquées dans l'affaire comprennent plus de 40 éléments d'information tels que les numéros de téléphone mobile et les codes de station de base Internet, qui enregistrent le comportement Internet spécifique des utilisateurs de téléphones mobiles. Certaines données peuvent même être directement intégrées à la page d’accueil des comptes personnels des citoyens.
Si vous souhaitez développer l’IA, il est inévitable d’occuper des données ?
Pour les ingénieurs R&D de n’importe quelle entreprise d’IA dans le monde, pouvoir obtenir une grande quantité de données réelles est très utile pour développer des modèles d’IA. Ce serait encore mieux si les données étaient d’une grande pureté. Ils peuvent traiter les données plus facilement et comparer et évaluer les modèles plus efficacement, proposant ainsi des solutions correctes aux problèmes de la vie réelle.
Cependant, en raison de problèmes de confidentialité des données, les données que ces géants peuvent partager sont assez limitées. Par conséquent, l’achat de données auprès de grandes entreprises est en fait une chose courante dans le secteur.
Non seulement en Chine, mais les utilisateurs du monde entier n’ont pas une compréhension particulièrement claire de la confidentialité et de la confidentialité des données. Lors de l'utilisation de divers produits Internet, ils doivent choisir « oui » dans le « Contrat d'utilisation ».
Les grands achètent les données, et ensuite ?
Les grands groupes ont dépensé beaucoup d’argent pour acheter les données, alors bien sûr, ils en feront un usage efficace.
Ils achètent des données, collectent des données à l’aide de leurs propres produits et développent des méthodes de cryptage plus sécurisées pour protéger leurs données.
Il est vrai que les faibles seront toujours faibles et les forts seront toujours forts.
En tant qu’ingénieurs, parlons de plusieurs méthodes de cryptage de données couramment utilisées et de la manière de comprendre leurs propriétés et leurs principes.
Mécanisme de protection intrinsèquement insuffisant pour les données anonymisées
Actuellement, le mécanisme de confidentialité du partage de données le plus couramment utilisé consiste à anonymiser l’ensemble de données, mais dans la plupart des cas, ce n’est toujours pas une bonne solution.
L’anonymisation des données peut préserver la confidentialité dans une certaine mesure en masquant certaines données sensibles, mais elle ne peut pas empêcher les experts en données de tirer des conclusions. Dans la pratique, les données sensibles cachées peuvent être déduites par déduction inverse des informations pertinentes.
Auparavant, un chercheur allemand avait publié un article intitulé Créez votre propre NSALe document de recherche explique comment inverser l’anonymisation des données et retrouver les informations d’origine.
Le chercheur a obtenu un accès gratuit à un mois d'informations sur les clics sur le Web d'environ 3 millions d'Allemands par l'intermédiaire d'une société fictive. Ces informations sont anonymisées, par exemple à l’aide d’une chaîne de caractères aléatoires. « 4vdp0qoi2kjaqgb »ViensRemplacez le vrai nom de l'utilisateur.
Le chercheur a réussi à déduire le véritable nom de l'utilisateur sur le site Web grâce à l'historique de navigation de l'utilisateur et à d'autres informations connexes. On constate que l’anonymisation des données ne peut garantir une confidentialité totale.
Le Chaos Communication Congress est organisé par le Chaos Computer Club d'Allemagne, la plus grande organisation d'alliance de hackers en Europe. Il étudie principalement les questions de sécurité informatique et réseau, dans le but de promouvoir la sécurité informatique et réseau.
Ainsi, le cryptage homomorphe est né
Il s’agit de l’une des avancées majeures dans le domaine de la cryptographie. Le décrypteur ne peut connaître que le résultat final mais ne peut pas obtenir les informations spécifiques de chaque texte chiffré.
Le cryptage homomorphe peut améliorer efficacement la sécurité des informations et pourrait devenir une technologie clé dans le domaine de l’IA à l’avenir, mais pour l’instant, ses scénarios d’application sont limités.
Pour faire simple, le cryptage homomorphe signifie que mes données peuvent être utilisées par vous selon vos besoins, mais vous ne pouvez pas voir précisément quelles sont les données.
Bien que cette méthode de cryptage soit efficace, son coût de calcul est trop élevé.
La technologie de cryptage homomorphe de base peut convertir 1 Mo de données en 16 Go, ce qui est très coûteux dans les scénarios d'IA. De plus, la technologie de cryptage homomorphe (comme la plupart des algorithmes de cryptage) est généralement non différentiable, ce qui la rend quelque peu inadaptée aux algorithmes d’IA traditionnels tels que la descente de gradient stochastique (SGD).
À l’heure actuelle, la technologie de cryptage homomorphe reste essentiellement au niveau conceptuel et est difficile à mettre en pratique, mais il y a de l’espoir pour l’avenir.
En savoir plus sur la technologie de cryptage GAN
Google a publié un article en 2016 intitulé « Apprendre à protéger les communications grâce à la cryptographie neuronale contradictoire »Cet article présente en détail une technologie de cryptage basée sur GAN qui peut résoudre efficacement le problème de protection des données dans le processus de partage de données.
Il s'agit d'une technique de cryptage basée sur les réseaux neuronaux, qui sont généralement considérés comme difficiles à utiliser pour le cryptage car ils ont des difficultés à effectuer des opérations XOR.
Mais il s’avère que les réseaux neuronaux peuvent apprendre à garder les données secrètes des autres réseaux neuronaux : ils peuvent découvrir toutes les méthodes de cryptage et de décryptage sans générer d’algorithmes de cryptage ou de décryptage.
Comment le cryptage GAN protège les données
La technologie de cryptage de GAN implique trois aspects, que nous pouvons démontrer en utilisant Alice, Bob et Eve. Habituellement, Alice et Bob sont les deux extrémités d'une communication sécurisée, et Eve surveille leur communication et essaie de retrouver les informations de données d'origine.
Alice envoie à Bob un message secret P, saisi par Alice. Lorsque Alice traite cette entrée, elle produit une sortie C (« P » signifie « texte en clair » et « C » signifie « texte chiffré »).
Bob et Eve reçoivent tous deux C et tentent de récupérer P à partir de C (nous désignons ces calculs par PBob et PEve, respectivement).
Bob a un avantage sur Eve : Lui et Alice partagent une clé secrète K.
L'objectif d'Eve est simple : reconstruire P exactement (en d'autres termes, minimiser l'erreur entre P et PEve).
Alice et Bob veulent communiquer clairement (pour minimiser l'erreur entre P et PBob), mais veulent également cacher leur communication à Eve.
Grâce à la technologie GAN, Alice et Bob s'entraînent ensemble et transmettent avec succès des informations tout en apprenant à éviter la surveillance d'Eve. L’ensemble du processus n’utilise aucun algorithme prédéfini. Selon le principe du GAN, Alice et Bob sont entraînés à battre la meilleure Eve, plutôt qu'une Eve fixe.
Comme le montre la figure ci-dessous, après environ 8 000 étapes de formation, Bob et Eve peuvent tous deux commencer à reconstruire le message original. Après environ 10 000 étapes d’entraînement, les réseaux Alice et Bob semblent découvrir Eve et commencer à interférer avec elle, provoquant une augmentation du taux d’erreur d’Eve. Autrement dit, Bob est capable d'apprendre du comportement d'Eve et de protéger la communication, en réalisant une reconstruction précise du message tout en évitant les attaques.
Pour en revenir aux applications de l’IA, la technologie de cryptage GAN peut être utilisée pour échanger des informations entre les entreprises et les réseaux neuronaux sans maintenir un niveau élevé de confidentialité. Il s’agit d’une solution pratique de protection des données pour les applications d’IA.
Parce que le modèle peut apprendre à protéger sélectivement les informations, en laissant certains éléments de l’ensemble de données non chiffrés, mais en empêchant toute forme d’inférence de trouver ces données sensibles, contournant ainsi efficacement les lacunes de l’anonymisation des données.
L'équipe Google a adapté l'architecture de chiffrement GAN dans un modèle où Alice et Bob partagent toujours une clé, mais Alice reçoit ici A, B, C et génère D-public à partir du texte chiffré.
Bob et Eve ont tous deux accès à la sortie D-public d'Alice. Bob les utilise pour générer une estimation améliorée de D et laisse Eve travailler à rebours pour récupérer C à partir de cette approximation. L'objectif est de démontrer que l'entraînement inverse permet une approximation de D sans révéler C, et que cette approximation peut être combinée avec des informations cryptées et une clé pour mieux confondre Eve.
Pour vérifier que le système peut cacher correctement les informations, les chercheurs ont créé un évaluateur appelé « Blind Eve ». Il connaît C, mais pas D-public et key, ce que fait Eve.
Si l'erreur de reconstruction d'Eve est égale à l'erreur de reconstruction d'Eve aveugle, cela signifie qu'Eve n'a pas réussi à extraire des informations valides. Après quelques séances, Eve n'avait plus d'avantage sur Blind Eve. Cela montre qu’Ève ne peut reconstruire aucune information sur C en connaissant simplement la distribution des valeurs de C.
À l’heure actuelle, la cryptographie GAN est une technologie relativement nouvelle dans les applications d’IA grand public. Mais conceptuellement, la technologie de cryptage GAN pourrait permettre aux entreprises de partager des ensembles de données avec des scientifiques de données sans révéler les données sensibles qu'ils contiennent.
À long terme, si vous souhaitez gagner la confiance des utilisateurs et réduire les crises juridiques, la technologie de cryptage est secondaire. Le plus important pour les entreprises Internet est de respecter et d’utiliser raisonnablement la confidentialité des utilisateurs.
Super Neuropédia
mot
discriminateur
[dɪ'skrɪməˌneɪtə] n. Discriminateur
sigmoïde
['sɪgmɔɪd]n. fonction sigmoïde
phrase
Réseau antagoniste génératifRéseaux antagonistes génératifs
Articles historiques (cliquez sur l'image pour lire)
« La traduction automatique est développée depuis 60 ans, mais elle semble toujours médiocre ? »
《La France était à deux doigts de devenir la première puissance technologique mondiale》
《Hé! Joyeux anniversaire, Turing》
《Si Turing est le père de l’IA,
Alors Shannon devrait être l'oncle de l'IA ?》
