HyperAI

Résumé De L'ensemble De Données | Le Chaos DeepFake Est Endémique, Utilisez La Magie Pour Vaincre La Magie ! Des Ensembles De Données De Haute Qualité Contribuent À Faire Progresser La Technologie De Détection Des Contrefaçons

特色图像

Avec le développement rapide de la technologie de l'intelligence artificielle, la technologie de reconnaissance faciale a été largement utilisée dans la sécurité, le paiement, la vente au détail et d'autres domaines, améliorant considérablement la commodité et la sécurité de la vie. Cependant, le caractère à double tranchant de la technologie est progressivement apparu, notamment en termes de protection de la vie privée, et l’abus de la technologie de reconnaissance faciale est devenu le centre de l’attention sociale.

Selon l'émission 315 Gala de CCTV, de nombreuses entreprises bien connues ont collecté et stocké illégalement des informations faciales sans le consentement des consommateurs, généré des identifiants uniques et les ont utilisées pour des analyses commerciales ultérieures et du marketing de précision. Ce comportement porte gravement atteinte au droit à la vie privée des consommateurs et suscite une vive inquiétude sociale.

Dans le même temps, la technologie DeepFake, pilotée par l’IA, est « indiscernable du réel », perturbant l’ordre social et portant atteinte à l’intérêt public. DeepFake utilise d'énormes quantités de données de formation pour générer de nombreuses fausses photos, vidéos et audios. Le mode de changement de visage est si sophistiqué qu’il est difficile pour les gens ordinaires de détecter les différences subtiles. De nombreux criminels utilisent cette technologie pour réaliser des profits illégaux. On estime que le nombre de criminels en Corée du Sud qui utilisent cette technologie pour réaliser des profits illégaux s’élève à 220 000.

Par conséquent, sur le plan technique, la mise à niveau continue de la technologie de reconnaissance faciale et de détection de falsification pour juger avec précision ces vidéos et images DeepFake falsifiées est un problème brûlant qui doit être résolu de toute urgence. Cet article triera et résumera les ensembles de données de reconnaissance faciale et DeepFake couramment utilisés, dans l'espoir d'aider les chercheurs à mener des recherches dans des domaines connexes plus efficacement dans une certaine mesure.

Cliquez pour voir plus d'ensembles de données open source :

https://go.hyper.ai/jpfrj

Ensemble de données DeepFake/Reconnaissance faciale

1.Ensemble de données de reconnaissance vidéo de détection de deepfake

Plateforme de publication :Kaggle

Heure de sortie :2024

Taille estimée :22,5 Go

Adresse de téléchargement :https://go.hyper.ai/B8dJf

L'ensemble de données de détection Deepfake est conçu spécifiquement pour la tâche de détection Deepfake et fournit une collection complète de séquences vidéo qui peuvent être utilisées pour former et évaluer des modèles d'apprentissage en profondeur pour identifier les médias manipulés. Il a été téléchargé à partir du serveur officiel FaceForensics, spécialisé dans la fourniture d'ensembles de données de haute qualité pour la détection de manipulation de visage.

2.Ensemble de données audiovisuelles multimodales LAV-DF

Agence d'édition :Université Monash, Université Curtin, Institut indien de technologie Ropar

Heure de sortie :2022

Taille estimée :23,11 Go
Adresse de téléchargement :https://go.hyper.ai/wTcYE

LAV-DF est un ensemble de données multimodal (falsification vidéo et falsification audio) dérivé de l'ensemble de données VoxCeleb2, contenant 136 304 vidéos, dont 36 431 vidéos réelles et 99 873 fausses vidéos.

3.Ensemble de données de détection de falsification de visage OpenForensics 

Agence d'édition :Institut national d'informatique, Japon ; Université Sokendaigaku, Japon ; Université de Tokyo

Heure de sortie :2021

Adresse de téléchargement :https://go.hyper.ai/64Gn2

L'ensemble de données OpenForensics est un ensemble de données à grande échelle et complexe, conçu pour des tâches de détection et de segmentation de falsification à multiples facettes. L'ensemble de données comprend 115 000 images sauvages et 334 000 visages. Toutes les images ont de riches annotations faciales. Il prend non seulement en charge les tâches de détection et de segmentation de falsification multi-visages, mais prend également en charge les tâches conventionnelles impliquant des visages généraux. Il présente un grand potentiel pour la recherche sur la prévention des deep fakes et la détection générale des visages humains.

4.Ensemble de données de falsification de visage ForgeryNet 

Agence d'édition :SenseTime Research, Université des postes et télécommunications de Pékin, Laboratoire d'intelligence artificielle de Shanghai, École de logiciels, Université Beihang, Université des sciences et technologies de Chine, S-Lab, Université technologique de Nanyang

Heure de sortie :2021

Adresse de téléchargement :https://go.hyper.ai/h9fii

L'ensemble de données ForgeryNet est une référence vaste et complète conçue spécifiquement pour l'analyse deepfake. Il contient 2,9 millions d'images et 221 247 vidéos, couvrant 7 méthodes d'opération de falsification au niveau de l'image et 8 au niveau de la vidéo du monde entier, et prend en charge 4 tâches aux niveaux de l'image et de la vidéo : classification des falsifications d'images, localisation spatiale des falsifications, classification des falsifications vidéo et localisation temporelle des falsifications.

5.Ensemble de données de falsification de visage FFIW10K 
Agence d'édition :Laboratoire de vision par ordinateur, ETH Zurich, Institut d'intelligence artificielle, Université Beihang, Université de technologie de Sydney

Heure de sortie :2021

Adresse de téléchargement :https://go.hyper.ai/rstji

L'ensemble de données comprend 10 000 fausses vidéos de haute qualité collectées sur YouTube, avec une moyenne de 3 visages par image. Chaque vidéo contient de vrais visages et de faux visages, ce qui est plus proche de vraies scènes complexes. Le processus de manipulation est entièrement automatique et contrôlé par un réseau d'évaluation de la qualité contradictoire du domaine, ce qui rend l'ensemble de données hautement évolutif et à faible coût de main-d'œuvre.

6.Ensemble de données sur les visages humains

Plateforme de publication :Kaggle

Heure de sortie :2024

Taille estimée :113,93 Mo

Adresse de téléchargement :https://go.hyper.ai/Ewakl

L'ensemble de données contient environ 9,6 000 images de visages, 5 000 images de visages réels et 4,63 000 images de visages générées par l'IA.

7.Ensemble de données de reconnaissance faciale Glint360K

Agence d'édition :DeepGlint 

Heure de sortie :2021

Taille estimée :161,46 Go

Adresse de téléchargement :https://go.hyper.ai/j0rrB

L'ensemble de données comprend environ 17 millions d'images de visages, dont environ 360 000 identités. Il s’agit de l’ensemble de données de reconnaissance faciale le plus vaste et le plus propre à ce jour. Il est conçu pour la formation et l'évaluation de modèles de reconnaissance faciale à grande échelle et est largement utilisé dans la recherche et le développement de la reconnaissance faciale, en particulier en combinaison avec la technologie d'apprentissage en profondeur.

8. FEnsemble de données de détection de falsification de visage aceForensics

Agence d'édition :Université technique de Munich (TUM)

Heure de sortie :2020

Adresse de téléchargement :https://go.hyper.ai/ItO9I

Cet ensemble de données contient un grand nombre d’opérations faciales synthétiques et réelles. Les données proviennent de différentes vidéos sur la plateforme YouTube et couvrent plusieurs créateurs de vidéos sélectionnés. En utilisant cet ensemble de données, les chercheurs peuvent développer des méthodes plus précises et plus fiables pour détecter et identifier les fausses images et vidéos de visage.

9.Ensemble de données de reconnaissance faciale à grande échelle UTKFace

Agence d'édition :Université américaine

Heure de sortie :2017

Taille estimée :1,45 Go

Adresse de téléchargement :https://go.hyper.ai/8soAU

L'ensemble de données UTKFace est un ensemble de données faciales à grande échelle avec une longue tranche d'âge (allant de 0 à 116 ans), contenant plus de 20 000 images faciales avec des annotations d'âge, de sexe et de race. Les personnages des images varient considérablement en termes de pose, d'expression faciale, d'éclairage, d'occlusion, de résolution, etc., et peuvent être utilisés pour diverses tâches telles que la reconnaissance faciale, l'estimation de l'âge, la prédiction du changement d'âge, la localisation de points de repère, etc.

10.Ensemble de données d'attributs de visage CelebA

Agence d'édition :L'Université chinoise de Hong Kong

Heure de sortie :2015

Taille estimée :16,92 Go

Adresse de téléchargement :https://go.hyper.ai/l0j1L

L'ensemble de données CelebFaces (CelebA) est un ensemble de données d'attributs de visage à grande échelle avec plus de 200 000 images de célébrités, chacune étant annotée avec 40 attributs et couvrant une large gamme de poses et d'arrière-plans. Les annotations de CelebA comprennent 10 177 identités, 202 599 images de visages et 5 lieux emblématiques.

11.Ensemble de données de reconnaissance faciale VGG-Face2
Agence d'édition :Université d'Oxford 

Heure de sortie :2015

Taille estimée :37,49 Go

Adresse de téléchargement :https://go.hyper.ai/XKI0Z

L'ensemble de données VGG-Face2 est un ensemble de données d'images de visage qui contient les données faciales de 9 131 personnes au total. Les images proviennent toutes de la recherche d'images de Google. Les personnes figurant dans l’ensemble de données varient considérablement en termes de posture, d’âge, de race et de profession.

Les éléments ci-dessus sont les 11 ensembles de données de reconnaissance faciale et DeepFake compilés par HyperAI. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, n'hésitez pas à laisser un message ou à soumettre votre contribution pour nous le faire savoir !

À propos d'HyperAI

HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :

* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 200 ensembles de données publiques

* Comprend plus de 300 tutoriels en ligne classiques et populaires

* Interprétation de plus de 100 cas d'articles AI4Science

* Prise en charge de plus de 500 termes de recherche associés

* Hébergement de la première documentation complète d'Apache TVM en Chine

Visitez le site Web officiel pour commencer votre parcours d'apprentissage :

https://hyper.ai

Enfin, je vous recommande une activité de partage académique !

La troisième diffusion en direct de Meet AI4S a invité Zhou Ziyi, chercheur postdoctoral à l'Institut des sciences naturelles de l'Université Jiao Tong de Shanghai et au Centre national de mathématiques appliquées de Shanghai. Cliquez ici pour prendre rendez-vous pour regarder la diffusion en direct !