GPT-5 entraîné sur des contenus adultes ? Une fuite de données inquiétante grâce aux poids ouverts
Le 19 septembre 2025, une analyse menée à partir des poids ouverts de GPT-oss, le modèle à poids libres d’OpenAI, a révélé des indices inattendus sur la nature des données utilisées pour entraîner GPT-5. Bien que le modèle card ne précise pas clairement les sources de données, l’analyse des embeddings du tokenizer o200k — utilisé depuis GPT-4o — a permis d’identifier des anomalies dans la distribution des normes L2 des tokens. Une centaine de tokens présentent une norme très faible, probablement dus à un poids de décroissance (weight decay) sans entraînement réel. Parmi eux, des séquences Unicode comme b'\xc4', b'\xbf', ou b'\xf5' à b'\xff', ainsi qu’un token anormal (ID 20373) correspondant à une combinaison de caractères chinois («境» en GBK, «门» en UTF-8), signifiant «porte-frontière». En revanche, certains tokens non-ASCII affichent des normes L2 très élevées, notamment des chaînes en mandarin associées à des sites de contenu adulte ou de jeux d’argent : «毛片免费观看» («regarder des vidéos explicites gratuitement»), «天天好彩票» («loterie quotidienne»), «久久综合网» (site de contenu adulte), «一本道高清无码» («voie unique, haute définition, sans code»), ou encore «铁血网» (site nationaliste chinois). L’analyse montre que GPT-5 reconnaît et traduit correctement ces termes, indiquant qu’ils ont été vus pendant l’entraînement — une preuve de membership inference, une technique de révélation de données d’entraînement, généralement considérée comme inapplicable dans les grands modèles. En automatisant cette vérification via l’API, on constate que plusieurs de ces tokens sont reconnus par GPT-5, GPT-oss et même des modèles concurrents comme Claude 4, tandis que d’autres échouent. Une corrélation significative (ρ = 0,448 selon Spearman) entre le nombre de résultats GitHub pour un token et sa reconnaissance par les modèles suggère que des sources comme GitHub ont pu contribuer à l’entraînement, probablement via des dépôts de spam ou de listes de modération. Ces résultats montrent que GPT-5 a été entraîné sur des phrases provenant de sites pornographiques, de jeux d’argent et de contenu politique extrême, malgré la prétention d’un corpus centré sur le STEM, le codage et les connaissances générales. L’ouverture des poids, bien que bénéfique pour la recherche, expose ainsi de nouvelles vulnérabilités : les tokens « glitch » peuvent servir d’indicateurs de données d’entraînement, révélant des sources inattendues. Les chercheurs recommandent aux laboratoires de pointe d’exclure les chaînes rares ou sensibles du vocabulaire du tokenizer pour limiter ces risques. Des experts du domaine, comme Jessica Rumbelow, ont déjà identifié des comportements similaires dans GPT-2 et GPT-3, notamment avec des tokens comme «SolidGoldMagicarp». Cette étude confirme que ces anomalies ne sont pas isolées, mais constituent un phénomène systémique lié à la construction des tokenizers. Elle souligne également que les modèles peuvent être manipulés pour révéler des informations confidentielles, même en l’absence de données brutes. Enfin, l’analyse ouvre la voie à de nouvelles recherches sur les comportements des modèles face à des entrées spécifiques, avec des implications importantes pour la sécurité, la confidentialité et la transparence des systèmes d’IA.
