Un Jeu de Données Synthétique pour l'Inférence des Attributs Personnels

Récemment, des modèles de langage volumineux et puissants (LLMs) sont devenus facilement accessibles à des centaines de millions d'utilisateurs à travers le monde. Cependant, leurs capacités impressionnantes et leur vaste connaissance du monde ne viennent pas sans risques pour la vie privée associés. Dans cette étude, nous nous concentrons sur la menace émergente que posent les LLMs en matière de vie privée : la capacité d'inférer avec précision des informations personnelles à partir de textes en ligne. Malgré l'importance croissante du profilage d'auteur basé sur les LLMs, les recherches dans ce domaine ont été entravées par un manque de jeux de données publics appropriés, principalement en raison des préoccupations éthiques et liées à la vie privée associées aux données personnelles réelles. Nous prenons deux mesures pour résoudre ce problème : (i) nous construisons un cadre de simulation pour la plateforme de médias sociaux populaire Reddit, utilisant des agents LLM initialisés avec des profils personnels synthétiques ; (ii) en utilisant ce cadre, nous générons SynthPAI, un jeu de données synthétique diversifié comprenant plus de 7800 commentaires manuellement étiquetés pour des attributs personnels. Nous validons notre jeu de données grâce à une étude humaine montrant que les humains peinent à surpasser le hasard lorsqu'il s'agit de distinguer nos commentaires synthétiques des commentaires réels. De plus, nous vérifions que notre jeu de données permet une recherche significative sur l'inférence d'attributs personnels en démontrant, à travers 18 modèles de langage volumineux et avancés (LLMs), que nos commentaires synthétiques nous permettent d'arriver aux mêmes conclusions que les données réelles. Ensemble, nos résultats expérimentaux, notre jeu de données et notre pipeline constituent une base solide pour des recherches futures axées sur la préservation de la vie privée visant à comprendre et atténuer les menaces pour la vie privée fondées sur l'inférence que posent les LLMs.