Microsoft N’est Pas Le Premier Et Le MIT N’est Pas Le Dernier À Supprimer Définitivement Un Ensemble De Données

Le Massachusetts Institute of Technology a récemment publié un avis demandant la suppression définitive du célèbre ensemble de données Tiny Images, car il a été signalé qu'il contenait des éléments suspectés de discrimination raciale et de discrimination à l'égard des femmes.
Le Massachusetts Institute of Technology (MIT) a récemment publié une déclaration d’excuses.Il a été annoncé que l'ensemble de données Tiny Images sera définitivement retiré des étagères, et l'ensemble de la société est appelé à désactiver et supprimer conjointement cet ensemble de données. Les utilisateurs qui disposent déjà de cet ensemble de données ne doivent pas le fournir à d’autres.
Au cours de l’année écoulée, plusieurs ensembles de données bien connus publiés par des entreprises et des instituts de recherche ont été retirés des étagères ou définitivement interdits, notammentEnsemble de données de célébrités MS Celeb 1M de Microsoft, ensemble de données de surveillance Duke MTMC de l'Université Duke pour la reconnaissance des piétons et ensemble de données Brainwash de l'Université de Stanford pour la détection de la tête.
L'ensemble de données Tiny Images qui a été retiré des étagères cette fois-ci a été initié et publié par le MIT en 2006. Comme son nom l'indique, il s'agit d'un ensemble de données d'images minuscules.
Contient 79,3 millions d'images couleur 32*32 pixels, principalement collectées à partir de Google Images.

Nécessite la boîte à outils MATLAB et le fichier de données d'index pour le chargement
L’ensemble des données représente près de 400 Go. La grande taille de l’ensemble de données en fait également l’un des ensembles de données les plus populaires dans le domaine de la recherche en vision par ordinateur.
Articles publiés simultanément avec cet ensemble de données « 80 millions de minuscules images : un vaste ensemble de données pour la reconnaissance non paramétrique d'objets et de scènes », le nombre de citations consultables pour cet article s'élève à 1 718.
Un article déclenche un auto-examen d'un ensemble de données à grande échelle
L'ensemble de données d'images Tiny Images Dataset est devenu un sujet brûlant en raison d'un article récemment publié intitulé « Grand ensemble de données d'images : une victoire à la Pyrrhus pour la vision par ordinateur ?
L’article soulève de fortes questions sur la conformité de ces grands ensembles de données.

Adresse de l'article : https://arxiv.org/pdf/2006.16923.pdf
L’un des deux auteurs est Vinay Prabhu, scientifique en chef chez UnifyID. UnifyID est une startup d'intelligence artificielle de la Silicon Valley qui fournit à ses clients des solutions de vérification de l'identité des utilisateurs.
Un autre auteur est Abeba Birhane, doctorant à l'University College Dublin.
L’article prend principalement comme exemple l’ensemble de données ImageNet-ILSVRC-2012.L'auteur a découvert que l'ensemble de données contient un petit nombre d'images photographiées secrètement (comme des photographies secrètes d'autres personnes sur la plage, y compris des parties intimes).On estime qu'en raison d'un contrôle laxiste, ces images violent gravement la vie privée des parties concernées.
Autrefois un ensemble de données classique, aujourd'hui politiquement incorrect
Contrairement à ImageNet, qui est soupçonné de violer la vie privée,La raison pour laquelle le jeu de données Tiny Images est condamné dans le document est qu’il contient des dizaines de milliers d’images portant des étiquettes racistes et misogynes.
Elle a également souligné que, dans la mesure où l’ensemble de données Tiny Images n’a fait l’objet d’aucun examen, les problèmes de discrimination et de violation de la vie privée sont plus graves.

Il s'agit de L'ensemble de données Tiny Images est étiqueté selon la spécification WordNet, classant près de 80 millions d'images en 75 000 catégories.
C'est précisément à cause de certaines balises de WordNet que l'ensemble de données a été remis en question.
WordNet est à blâmer, les jeux de données d'images sont également à blâmer
Comme nous le savons tous, WordNet a été conçu conjointement par des psychologues, des linguistes et des ingénieurs informaticiens du Laboratoire des sciences cognitives de l’Université de Princeton. Depuis sa sortie en 1985, il s'agit du système de dictionnaire anglais le plus standardisé et le plus complet du monde anglophone.
Standardisé et complet signifie : collecter objectivement les mots anglais qui existent dans la société humaine et leur donner une compréhension et une association.
Dans l'ensemble de données Tiny Images, 53 464 noms différents de WordNet sont utilisés comme étiquettes d'image.

C’est aussi pour cette raison que citer directement des expressions de l’existence sociale humaine introduira inévitablement des mots impliquant la discrimination raciale et le sexisme.
Par exemple, des mots clairement insultants ou désobligeants Salope, pute, nègregeuh etc., sont devenus des étiquettes pertinentes pour les images. En outre, il existe certains termes subjectifs, tels que agresseur agresseur, pédophile attendez.
Avant la recherche scientifique, il faut mesurer l’impact social
L’auteur estime que de nombreux ensembles de données d’images à grande échelle n’ont pas été soigneusement pris en compte en termes d’impact social lors de leur création et peuvent constituer une menace et un préjudice pour les droits individuels.
Étant donné que l’information est désormais open source, n’importe qui peut utiliser une API ouverte pour exécuter une requête afin de définir ou de juger l’identité ou le portrait des humains dans ImageNet ou d’autres ensembles de données. C’est en effet dangereux et constitue une atteinte aux droits des parties concernées. L'auteur a également donné trois solutions :
L’une est la réalité synthétique et la distillation des ensembles de données,Par exemple, utiliser (ou améliorer) des images synthétiques au lieu d’images réelles lors de la formation du modèle ;
Deuxièmement, renforcer le filtrage éthique des ensembles de données ;
Le troisième est l’audit des ensembles de données quantitatives.Les auteurs ont mené une analyse quantitative inter-catégories d’ImageNet pour évaluer l’étendue des violations éthiques et mesurer la faisabilité des méthodes basées sur l’annotation de modèles.
Suppression de l'ensemble de données : soit par conscience de soi, soit par pression externe
Le MIT n’est pas le premier à supprimer volontairement un ensemble de données en raison de la pression publique ou de la conscience de soi. Dès la mi-2019, Microsoft a supprimé le célèbre jeu de données MS Celeb 1M et a annoncé qu'il ne serait plus utilisé.
L'ensemble de données MS Celeb 1M est obtenu en trouvant 1 million de célébrités sur Internet, en sélectionnant 100 000 en fonction de leur popularité, puis en utilisant un moteur de recherche pour sélectionner environ 100 photos de chaque personne.

MS Celeb 1M est souvent utilisé pour la formation à la reconnaissance faciale. L'ensemble de données a été utilisé pour la première fois dans le cadre du concours MSR IRC, l'un des concours de reconnaissance d'images les plus performants au monde. Des entreprises comme IBM, Panasonic, Alibaba, Nvidia et Hitachi utilisent également cet ensemble de données.
Un chercheur a souligné que cela implique des questions telles que l’éthique, l’origine et la confidentialité personnelle des ensembles de données d’images de reconnaissance faciale. Parce que ces images proviennent toutes d'Internet, bien que Microsoft ait déclaré avoir capturé et obtenu ces images sur la base du « Creative Commons License CC Agreement » (les personnes sur les photos n'autorisent pas nécessairement la licence, mais le propriétaire du droit d'auteur le fait).
Selon l'accord, les photos peuvent être utilisées à des fins de recherche universitaire, mais une fois que Microsoft a publié l'ensemble de données, il ne peut plus superviser efficacement l'utilisation de l'ensemble de données.
En plus de l'ensemble de données MS Celeb 1M, il existe également l'ensemble de données de surveillance Duke MTMC pour la reconnaissance des piétons publié par l'Université Duke et l'ensemble de données Brainwash pour la détection de la tête publié par l'Université de Stanford.
Téléchargez d'autres ensembles de données dès que possible, ils seront peut-être supprimés demain
Le récent mouvement pour l’égalité raciale Black Lives Matter a provoqué la panique dans tous les milieux en Europe et aux États-Unis, et les communautés de l’informatique et de l’ingénierie ont également constamment discuté, argumenté et réfléchi.
Au départ, les entreprises et organisations représentées par Github et le langage Go ont commencé à modifier les normes de nommage. Par exemple, les termes « liste noire » et « liste blanche » doivent être évités et les termes neutres « liste de blocage » et « liste d'autorisation » doivent être utilisés à la place, ou le nom de branche par défaut doit être modifié de « maître » à « tronc ».
Un autre pionnier de l’apprentissage profond, Lecun, a été accusé d’avoir tenu des propos racistes et sexistes et a volontairement quitté Twitter.
Désormais, le politiquement correct peut s’appliquer à de grands ensembles de données.
Certes, un grand nombre d’ensembles de données présentent de nombreuses lacunes et imperfections lors de leur conception initiale. Toutefois, dans les conditions actuelles, supprimer directement les ensembles de données pertinents n’est pas la meilleure façon de remédier aux biais.
Après tout, ces images n’existent pas seulement dans ces ensembles de données, et ces biais ne se limitent pas à quelques mots dans WordNet.
Même si l’ensemble de données a été supprimé, les images sont toujours disponibles dans tous les coins d’Internet. Même si WordNet a été désactivé, ces mots sont toujours présents dans l’esprit des gens. Si nous voulons résoudre le problème des biais dans l’IA, nous devons prêter attention aux biais de longue date dans la culture sociale.
-- sur--