HyperAIHyperAI
il y a 2 mois

zGAN : Un réseau de neurones génératif adversarial axé sur les valeurs aberrantes pour la génération de données synthétiques réalistes

Azizjon Azimi; Bonu Boboeva; Ilyas Varshavskiy; Shuhrat Khalilbekov; Akhlitdin Nizamitdinov; Najima Noyoftova; Sergey Shulgin
zGAN : Un réseau de neurones génératif adversarial axé sur les valeurs aberrantes pour la génération de données synthétiques réalistes
Résumé

Le phénomène des « cygnes noirs » a posé un défi fondamental à la performance des modèles de machine learning classiques. La perception d'une augmentation de la fréquence des conditions aberrantes, en particulier dans l'environnement post-pandémique, a rendu nécessaire l'exploration des données synthétiques comme complément aux données réelles dans l'entraînement des modèles. Cet article fournit une vue d'ensemble générale et une investigation expérimentale de l'architecture du modèle zGAN développée pour générer des données tabulaires synthétiques avec des caractéristiques d'outliers. Le modèle est testé dans des environnements de classification binaire et montre des résultats prometteurs en termes de génération de données synthétiques réalistes, ainsi qu'en termes de capacités d'amélioration de la performance du modèle. Une caractéristique distinctive du zGAN est sa capacité améliorée à établir des corrélations entre les caractéristiques dans les données générées, reproduisant les corrélations entre les caractéristiques présentes dans les données d'entraînement réelles. De plus, il est crucial que le zGAN puisse générer des outliers sur la base de la covariance des données réelles ou de covariances synthétiquement générées. Cette approche de génération d'outliers permet de modéliser des événements économiques complexes et d'augmenter le nombre d'outliers pour des tâches telles que l'entraînement de modèles prédictifs et la détection, le traitement ou l'élimination d'outliers. Les expériences et les analyses comparatives menées dans le cadre de cette étude ont été réalisées sur des jeux de données privés (risque crédit dans les services financiers) et publics.