HyperAI

Parlons Du Cryptage GAN, En Commençant Par La Fuite Des Informations De Réservation De Chambres De L'hôtel Huazhu

il y a 7 ans
Information
Sparanoid
特色图像

Par Super Neuro

Aujourd'hui, des rumeurs circulent selon lesquelles des pirates informatiques vendent ouvertement des « données de réservation de chambres d'hôtel Huazhu » sur le dark web. À en juger par le contenu publié par le vendeur, les données incluent les hôtels sous Huazhu et les données utilisateur des hôtels sous AccorHotels qui coopèrent avec lui. Le pirate a proposé publiquement de vendre 8 bitcoins (environ 56 000 dollars américains, près de 380 000 RMB). À ce jour, Huazhu Hotels a publiquement répondu qu'il avait signalé l'affaire à la police.

Huazhu Hotels Group (NASDAQ : HTHT), anciennement connu sous le nom de Hanting Hotel Group, est le premier groupe de gestion de chaîne hôtelière à part entière en Chine.

Elle a été fondée en 2005 et cotée au NASDAQ aux États-Unis en mars 2010. Elle exploite actuellement plus de 3 000 hôtels, couvrant tous les niveaux du marché, du haut de gamme au bas de gamme.

Parmi elles, les marques hôtelières ciblant le marché haut de gamme incluent Grand Mercure, VUE et Joya ; les hôtels ciblant le marché de milieu de gamme comprennent Four Seasons, Orange Crystal, Orange Select et Ibis Styles ; le marché de masse comprend Ibis, Hanting Premium, Hanting et Hi Inn.

Les données vendues sur le dark web comprennent cette fois trois parties :

  • Les informations d'enregistrement du site Web officiel de Huazhu Hotels comprennent :

Nom, numéro de téléphone portable, adresse e-mail, numéro d'identification, mot de passe de connexion, totalisant 53 Go, informations d'identité d'environ 120 millions de personnes ;

  • Lors de l'enregistrement dans un hôtel Huazhu, les informations d'enregistrement d'identité du client comprennent :

Nom, numéro d'identification, adresse du domicile, date de naissance, numéro d'identification interne, totalisant 22,3 Go, informations d'identité d'environ 130 millions de personnes ;

  • Informations sur les réservations de chambres de l'hôtel Huazhu, notamment :

Numéro d'identification interne, numéro d'association de chambre, nom, numéro de carte de paiement, numéro de téléphone portable, heure d'enregistrement, numéro d'identification de l'hôtel, numéro de chambre, montant de la consommation, etc., totalisant 66,2 Go, soit environ 240 millions d'enregistrements ;

Bien que Huazhu ait annoncé avoir appelé la police, il est très difficile de retracer et de recueillir des preuves des transactions sur le dark web, et les données auraient déjà dû fuir, on ne sait donc pas quelles mesures correctives peuvent être prises.

Piratage de données : une zone grise sous le soleil

En fait, ce n’est pas la première fois qu’une fuite d’informations citoyennes d’une telle ampleur se produit.

Dès le mois de juillet de cette année, un cas majeur de suspicion de fuite de données a été révélé en Chine. Pas moins de 11 entreprises ont été impliquées et 4 000 Go et des dizaines de milliards de données d'information citoyenne ont été saisis.

Les données impliquées dans cette affaire sont hautement privées. Les données URL Internet impliquées dans l'affaire comprennent plus de 40 éléments d'information tels que les numéros de téléphone mobile et les codes de station de base Internet, qui enregistrent le comportement Internet spécifique des utilisateurs de téléphones mobiles. Certaines données peuvent même être directement intégrées à la page d’accueil des comptes personnels des citoyens.

Mais ce qui est encore plus surprenant, c’est que ceux qui achètent ces données ne sont pas seulement des organisations frauduleuses, des prêteurs financiers en ligne, etc. comme on le pense. De nombreuses grandes entreprises Internet nationales et étrangères, dont Google et Huawei, sont d'importants clients de l'entreprise, ce qui signifie qu'elles ont toutes accès à diverses données privées des citoyens.

Pour les ingénieurs R&D de n’importe quelle entreprise d’IA dans le monde, pouvoir obtenir une grande quantité de données réelles est très utile pour développer des modèles d’IA. Ce serait encore mieux si les données étaient d’une grande pureté.

Ils peuvent traiter les données plus facilement et comparer et évaluer les modèles plus efficacement, proposant ainsi des solutions correctes aux problèmes de la vie réelle.

Parlons du cryptage GAN, en commençant par la fuite des informations de réservation de chambres de l'hôtel Huazhu

Cependant, en raison de problèmes de confidentialité des données, les données que ces géants peuvent partager sont assez limitées. Il est donc courant dans le secteur que les grandes entreprises achètent des données.

Non seulement en Chine, mais les utilisateurs du monde entier n’ont pas une compréhension particulièrement claire de la confidentialité et de la confidentialité des données. Lors de l'utilisation de divers produits Internet, ils doivent choisir « oui » dans le « Contrat d'utilisation ».

Les grands achètent les données, et ensuite ?

Les grands groupes ont dépensé beaucoup d’argent pour acheter les données, alors bien sûr, ils en feront un usage efficace.

Ils achètent des données, collectent des données à l’aide de leurs propres produits et développent des méthodes de cryptage plus sécurisées pour protéger leurs données.

Parlons du cryptage GAN, en commençant par la fuite des informations de réservation de chambres de l'hôtel Huazhu

Il est vrai que les faibles seront toujours faibles et les forts seront toujours forts.

En tant qu’ingénieurs, parlons de plusieurs méthodes de cryptage de données couramment utilisées et de la manière de comprendre leurs propriétés et leurs principes.

Mécanisme de protection intrinsèquement insuffisant pour les données anonymisées

Actuellement, le mécanisme de confidentialité du partage de données le plus couramment utilisé consiste à anonymiser l’ensemble de données, mais dans la plupart des cas, ce n’est toujours pas une bonne solution.

L’anonymisation des données peut préserver la confidentialité dans une certaine mesure en masquant certaines données sensibles, mais elle ne peut pas empêcher les experts en données de tirer des conclusions. Dans la pratique, les données sensibles cachées peuvent être déduites par déduction inverse des informations pertinentes.

Auparavant, un chercheur allemand avait publié un article intitulé Créez votre propre NSALe document de recherche explique comment inverser l’anonymisation des données et retrouver les informations d’origine.

Parlons du cryptage GAN, en commençant par la fuite des informations de réservation de chambres de l'hôtel Huazhu

Le chercheur a obtenu un accès gratuit à un mois d'informations sur les clics sur le Web d'environ 3 millions d'Allemands par l'intermédiaire d'une société fictive. Ces informations sont anonymisées, par exemple à l’aide d’une chaîne de caractères aléatoires. « 4vdp0qoi2kjaqgb »pour remplacer le vrai nom de l'utilisateur.

Le chercheur a réussi à déduire le véritable nom de l'utilisateur sur le site Web grâce à l'historique de navigation de l'utilisateur et à d'autres informations connexes. On constate que l’anonymisation des données ne peut garantir une confidentialité totale.

Le Chaos Communication Congress est organisé par le Chaos Computer Club d'Allemagne, la plus grande organisation d'alliance de hackers en Europe. Il étudie principalement les questions de sécurité informatique et réseau, dans le but de promouvoir la sécurité informatique et réseau.

Ainsi, le cryptage homomorphe est né

Il s’agit de l’une des avancées majeures dans le domaine de la cryptographie. Le décrypteur ne peut connaître que le résultat final mais ne peut pas obtenir les informations spécifiques de chaque texte chiffré.

Le cryptage homomorphe peut améliorer efficacement la sécurité des informations et pourrait devenir une technologie clé dans le domaine de l’IA à l’avenir, mais pour l’instant, ses scénarios d’application sont limités.

Pour faire simple, le cryptage homomorphe signifie que mes données peuvent être utilisées par vous selon vos besoins, mais vous ne pouvez pas voir précisément quelles sont les données.

Parlons du cryptage GAN, en commençant par la fuite des informations de réservation de chambres de l'hôtel Huazhu

Bien que cette méthode de cryptage soit efficace, son coût de calcul est trop élevé.

La technologie de cryptage homomorphe de base peut convertir 1 Mo de données en 16 Go, ce qui est très coûteux dans les scénarios d'IA. De plus, la technologie de cryptage homomorphe (comme la plupart des algorithmes de cryptage) est généralement non différentiable, ce qui la rend quelque peu inadaptée aux algorithmes d’IA traditionnels tels que la descente de gradient stochastique (SGD).

À l’heure actuelle, la technologie de cryptage homomorphe reste essentiellement au niveau conceptuel et est difficile à mettre en pratique, mais il y a de l’espoir pour l’avenir.

En savoir plus sur la technologie de cryptage GAN

Google a publié un article en 2016 intitulé « Apprendre à protéger les communications grâce à la cryptographie neuronale contradictoire »Cet article présente en détail une technologie de cryptage basée sur GAN qui peut résoudre efficacement le problème de protection des données dans le processus de partage de données.

Parlons du cryptage GAN, en commençant par la fuite des informations de réservation de chambres de l'hôtel Huazhu

Il s'agit d'une technique de cryptage basée sur les réseaux neuronaux, qui sont généralement considérés comme difficiles à utiliser pour le cryptage car ils ont des difficultés à effectuer des opérations XOR.

Mais il s’avère que les réseaux neuronaux peuvent apprendre à garder les données secrètes des autres réseaux neuronaux : ils peuvent découvrir toutes les méthodes de cryptage et de décryptage sans générer d’algorithmes de cryptage ou de décryptage.

Comment le cryptage GAN protège les données

La technologie de cryptage de GAN implique trois aspects, que nous pouvons démontrer en utilisant Alice, Bob et Eve. Habituellement, Alice et Bob sont les deux extrémités d'une communication sécurisée, et Eve surveille leur communication et essaie de retrouver les informations de données d'origine.

Parlons du cryptage GAN, en commençant par la fuite des informations de réservation de chambres de l'hôtel Huazhu

Alice envoie à Bob un message secret P, saisi par Alice. Lorsque Alice traite cette entrée, elle produit une sortie C (« P » signifie « texte en clair » et « C » signifie « texte chiffré »).

Bob et Eve reçoivent tous deux C et tentent de récupérer P à partir de C (nous désignons ces calculs par PBob et PEve, respectivement).

Bob a un avantage sur Eve : Lui et Alice partagent une clé secrète K.

L'objectif d'Eve est simple : reconstruire P exactement (en d'autres termes, minimiser l'erreur entre P et PEve).

Alice et Bob veulent communiquer clairement (pour minimiser l'erreur entre P et PBob), mais veulent également cacher leur communication à Eve.

Grâce à la technologie GAN, Alice et Bob s'entraînent ensemble et transmettent avec succès des informations tout en apprenant à éviter la surveillance d'Eve. L’ensemble du processus n’utilise aucun algorithme prédéfini. Selon le principe du GAN, Alice et Bob sont entraînés à battre la meilleure Eve, plutôt qu'une Eve fixe.

Comme le montre la figure ci-dessous, après environ 8 000 étapes de formation, Bob et Eve peuvent tous deux commencer à reconstruire le message original. Après environ 10 000 étapes d’entraînement, les réseaux Alice et Bob semblent découvrir Eve et commencer à interférer avec elle, provoquant une augmentation du taux d’erreur d’Eve. Autrement dit, Bob est capable d'apprendre du comportement d'Eve et de protéger la communication, en réalisant une reconstruction précise du message tout en évitant les attaques.

Parlons du cryptage GAN, en commençant par la fuite des informations de réservation de chambres de l'hôtel Huazhu

Pour en revenir aux applications de l’IA, la technologie de cryptage GAN peut être utilisée pour échanger des informations entre les entreprises et les réseaux neuronaux sans maintenir un niveau élevé de confidentialité. Il s’agit d’une solution pratique de protection des données pour les applications d’IA.

Parce que le modèle peut apprendre à protéger sélectivement les informations, en laissant certains éléments de l’ensemble de données non chiffrés, mais en empêchant toute forme d’inférence de trouver ces données sensibles, contournant ainsi efficacement les lacunes de l’anonymisation des données.

L'équipe Google a adapté l'architecture de chiffrement GAN dans un modèle où Alice et Bob partagent toujours une clé, mais Alice reçoit ici A, B, C et génère D-public à partir du texte chiffré.

Bob et Eve ont tous deux accès à la sortie D-public d'Alice. Bob les utilise pour générer une estimation améliorée de D et laisse Eve travailler à rebours pour récupérer C à partir de cette approximation. L'objectif est de démontrer que l'entraînement inverse permet une approximation de D sans révéler C, et que cette approximation peut être combinée avec des informations cryptées et une clé pour mieux confondre Eve.

Pour vérifier que le système peut cacher correctement les informations, les chercheurs ont créé un évaluateur appelé « Blind Eve ». Il connaît C, mais pas D-public et key, ce que fait Eve.

Si l'erreur de reconstruction d'Eve est égale à l'erreur de reconstruction d'Eve aveugle, cela signifie qu'Eve n'a pas réussi à extraire des informations valides. Après quelques séances, Eve n'avait plus d'avantage sur Blind Eve. Cela montre qu’Ève ne peut reconstruire aucune information sur C en connaissant simplement la distribution des valeurs de C.

Parlons du cryptage GAN, en commençant par la fuite des informations de réservation de chambres de l'hôtel Huazhu

À l’heure actuelle, la cryptographie GAN est une technologie relativement nouvelle dans les applications d’IA grand public. Mais conceptuellement, la technologie de cryptage GAN pourrait permettre aux entreprises de partager des ensembles de données avec des scientifiques de données sans révéler les données sensibles qu'ils contiennent.

À long terme, si vous souhaitez gagner la confiance des utilisateurs et réduire les crises juridiques, la technologie de cryptage est secondaire. Le plus important pour les entreprises Internet est de respecter et d’utiliser raisonnablement la confidentialité des utilisateurs.