CorGAN : Réseaux génératifs adversaires convolutifs capables de capturer les corrélations pour la génération de dossiers de santé synthétiques

Les modèles d'apprentissage profond ont démontré des performances de haute qualité dans des domaines tels que la classification d'images et le traitement du langage parlé. Toutefois, la création d'un modèle d'apprentissage profond à partir de données de dossiers de santé électroniques (EHR) soulève des défis particuliers en matière de confidentialité, propres aux chercheurs travaillant dans ce domaine. Ce défi met l'accent sur la nécessité de générer des données synthétiques réalistes tout en garantissant la protection de la vie privée. Dans cet article, nous proposons un cadre novateur appelé Correlation-capturing Generative Adversarial Network (CorGAN), destiné à la génération de dossiers de santé synthétiques. Dans CorGAN, nous utilisons des réseaux de neurones convolutifs pour capturer les corrélations entre caractéristiques médicales adjacentes dans l'espace de représentation des données, en combinant des réseaux antagonistes génératifs convolutifs (Convolutional GAN) et des autoencodeurs convolutifs. Pour évaluer la fidélité du modèle, nous montrons que CorGAN produit des données synthétiques dont les performances sont comparables à celles des données réelles dans diverses tâches d'apprentissage automatique, telles que la classification et la prédiction. Nous fournissons également une évaluation de la confidentialité et présentons une analyse statistique des caractéristiques réalistes des données synthétiques générées. Le logiciel associé à cette étude est open source et est disponible à l'adresse suivante : https://github.com/astorfi/cor-gan.