Microsoft Supprime Des Ensembles De Données Bien Connus, Éclaircissant Le Mystère De La Confidentialité Des Données

Il y a quelques jours, Microsoft a discrètement supprimé un ensemble de données d’images de célébrités publiques. Cet ensemble de données contient 100 000 images faciales de célébrités et est souvent utilisé pour la formation à la reconnaissance faciale. Nous ne connaissons pas la véritable raison pour laquelle Microsoft l’a supprimé, mais les problèmes de confidentialité des données qui se cachent derrière, y compris les normes de sécurité de la technologie de reconnaissance faciale, méritent réflexion.
Microsoft a supprimé un ensemble de données d’images de célébrités la semaine dernière. Il s'agissait autrefois du plus grand ensemble de données de reconnaissance faciale public au monde, mais il n'est plus accessible via les canaux de Microsoft.
Quels sont les enjeux derrière cette suppression « silencieuse » ?
Le problème que Microsoft veut résoudre : l'ensemble de données sur les célébrités MS Celeb
L'ensemble de données MS Celeb 1M a été publié pour la première fois par Microsoft en 2016 et contient 100 000 célébrités, près de 10 millions d'images de visages, et ces données sont collectées sur Internet.
Nous avons sélectionné 100 000 célébrités sur 1 million sur Internet en fonction de leur popularité, puis nous avons utilisé un moteur de recherche pour extraire environ 100 photos de chaque personne afin d'obtenir cet énorme ensemble de données.

Cet ensemble de données a été utilisé à l'origine pour servir le concours. MSR IRC Il s’agit de l’une des compétitions de reconnaissance d’images de plus haut niveau au monde, et l’ensemble de données MS Celeb 1M a été utilisé à l’origine pour cette compétition.
MS Celeb 1M est souvent utilisé pour la formation à la reconnaissance faciale. Cependant, comme ces images proviennent toutes d’Internet, elles ont été remises en question. Microsoft a déclaré qu'il était basé sur Contrat de licence Creative Commons CC, pour saisir et obtenir ces images.
En vertu de l'accord, les photos peuvent être réutilisées à des fins de recherche universitaire (les personnes présentes sur les photos n'autorisent pas nécessairement la permission, mais les détenteurs des droits d'auteur le font). Mais une fois que Microsoft a publié l’ensemble de données, il n’a plus aucun contrôle sur son utilisation. Le Financial Times a mené une enquête approfondie et a découvert que les données sont largement utilisées dans de nombreux tests d’entreprise.
Des entreprises comme IBM, Panasonic, Alibaba, Nvidia et Hitachi ont utilisé cet ensemble de données.
Cela implique certaines questions normatives dans l’utilisation des ensembles de données. Un chercheur a également souligné que cela impliqueAffronterQuestions d'éthique, de provenance et de confidentialité liées à l'identification des ensembles de données d'images.
Motif de suppression : L'employé responsable de cet ensemble de données est-il parti ?
Microsoft a silencieusement supprimé MS Celeb 1M en ligne sans aucune explication spécifique.

Dans un rapport du Financial Times, Microsoft a déclaré « L'objectif principal de ce site Web est à des fins académiques »,La raison de sa suppression est que« L'employé qui dirigeait le projet est parti et ne travaille plus chez Microsoft, il a donc été supprimé. »
Nous pensons tous qu’il doit y avoir d’autres raisons, peut-être qu’il y a des problèmes avec les images dans l’ensemble de données. Bien que Microsoft ait déclaré que tous les ensembles de données proviennent de photos de personnalités publiques. Mais il comprend également un petit nombre de personnalités non célèbres. Les propriétaires de ces photos de visage ont soulevé des questions et des critiques concernant l'utilisation par Microsoft de leurs noms et informations d'image.
Certains membres du personnel technique ont également émis l'hypothèse que Microsoft pourrait être accusé d'avoir violé les règles de l'UE. Règlement général sur la protection des données (RGPD)En ce qui concerne la suppression des données, la loi est entrée en vigueur l’année dernière et vise à établir des protections de sécurité des données.

Mais Microsoft a déclaré qu'ils n'étaient pas impliqués dans les dispositions du RGPD, et les sites Web liés aux ensembles de données ont été retirés simplement parce que « la compétition était terminée ».
Bien sûr, cette fois, Microsoft a supprimé l’ensemble de données MS Celeb.Cela ne l’empêche pas d’être utilisé normalement dans la recherche universitaire et dans d’autres canaux.. Les outils permettant de travailler avec des bases de données sont désormais également accessibles normalement.
Les ensembles de données publiques couramment utilisés peuvent également présenter des problèmes de confidentialité
Après l'enquête du Financial Times, deux autres institutions universitaires ont également supprimé des ensembles de données pertinents : l'Université Duke Ensemble de données de surveillance Duke MTMCet l'Université de Stanford Ensemble de données sur le lavage de cerveau.
Ce n’est pas la première fois que les questions relatives aux ensembles de données et à la confidentialité attirent l’attention du public. Fin janvier de cette année, IBM a publié un ensemble de données impartiales sur la « diversité des visages » à l'échelle d'un million de personnes, ce qui a suscité une vaste controverse.
Bien qu'IBM ait souligné que cette mesure vise à réduire le problème de « biais » dans la reconnaissance faciale, la source de l'ensemble de données et le degré de connaissance des caractères ont soulevé de nombreuses questions.
Certains médias ont également rapporté qu'IBM avait déclaré qu'il supprimerait les photos concernées dans l'ensemble de données selon les souhaits des sujets, mais il ne s'agissait que de déclarations unilatérales et aucune mesure concrète n'a été prise.

Les règles de collecte et d’utilisation des ensembles de données restent encore un domaine très flou, notamment grâce à la commodité d’Internet, de nombreuses institutions peuvent facilement obtenir un grand nombre d’images à des fins telles que la reconnaissance faciale.
En fait, la solution aux problèmes de confidentialité liés à l’ensemble de données peut être très simple :En ce qui concerne les informations personnelles confidentielles des utilisateurs, le droit de l'utilisateur à savoir doit être garanti et il doit être assuré qu'il est disposé à fournir des données..
Mais ce qui semble manquer, ce n’est jamais la méthode, mais la conscience.