Les Jeux de Données Synthétiques Sont-ils Fiables pour l'Évaluation de la Généralisation de la Ré-Identification des Personnes ?

Des études récentes montrent que les modèles formés sur des ensembles de données synthétiques sont capables d'atteindre une performance de réidentification de personnes (GPReID) plus généralisable que ceux formés sur des ensembles de données réelles publiques. D'autre part, en raison des limitations des ensembles de données réelles pour la réidentification de personnes, il serait également important et intéressant d'utiliser des ensembles de données synthétiques à grande échelle comme ensembles de test pour évaluer les algorithmes de réidentification de personnes. Cependant, cela soulève une question cruciale : un ensemble de données synthétique est-il fiable pour l'évaluation de la réidentification de personnes généralisable ? La littérature ne fournit aucune preuve à ce sujet. Pour répondre à cette question, nous avons conçu une méthode appelée Analyse du Classement Par Paires (PRA) afin de mesurer quantitativement la similarité du classement et d'effectuer un test statistique d'identité des distributions. Plus précisément, nous utilisons les coefficients de corrélation par rangs de Kendall pour évaluer les valeurs de similarité par paires entre les classements des algorithmes sur différents ensembles de données. Ensuite, un test non paramétrique à deux échantillons Kolmogorov-Smirnov (KS) est effectué pour déterminer si les corrélations entre les classements des algorithmes sur les ensembles de données synthétiques et réels, ainsi que celles uniquement entre les ensembles de données réels, appartiennent à des distributions identiques. Nous menons des expériences exhaustives avec dix algorithmes représentatifs, trois ensembles de données populaires pour la réidentification de personnes dans le monde réel et trois ensembles de données synthétiques à grande échelle récemment publiés. Grâce à l'analyse du classement par paires conçue et aux évaluations exhaustives, nous concluons qu'un ensemble de données synthétique à grande échelle récent, ClonedPerson, peut être utilisé avec fiabilité pour l'évaluation du GPReID, statistiquement similaire aux ensembles de données du monde réel. Ainsi, cette étude garantit l'utilisation d'ensembles de données synthétiques tant pour l'ensemble d'apprentissage source que pour l'ensemble de test cible, sans aucune préoccupation liée au respect de la vie privée provenant des données issues du suivi dans le monde réel. De plus, cette étude pourrait également inspirer les futures conceptions d'ensembles de données synthétiques.