CheXclusion : Écarts en matière d'équité des classificateurs profonds à base de radiographies thoraciques

Les systèmes d’apprentissage automatique ont récemment attiré une grande attention en raison de leur capacité à atteindre un niveau de performance expert dans des tâches cliniques, en particulier dans le domaine de l’imagerie médicale. Dans cette étude, nous examinons dans quelle mesure les classificateurs de pointe basés sur l’apprentissage profond, entraînés pour produire des diagnostics à partir d’images radiographiques thoraciques, présentent des biais par rapport à des attributs protégés. Nous entraînons des réseaux de neurones convolutifs afin de prédire 14 diagnostics sur trois jeux de données publics majeurs d’images radiographiques thoraciques : MIMIC-CXR, Chest-Xray8 et CheXpert, ainsi qu’un jeu de données multi-centre combinant l’ensemble de ces sources. Nous évaluons la disparité du taux de vrais positifs (TPR) — c’est-à-dire la différence entre les taux de vrais positifs — entre différents attributs protégés tels que le sexe du patient, l’âge, l’origine ethnique et le type d’assurance maladie, utilisé comme indicateur proxy du statut socioéconomique. Nous démontrons que des disparités de TPR existent dans les classificateurs de pointe sur tous les jeux de données, pour toutes les tâches cliniques et pour toutes les sous-populations. Un jeu de données issu de plusieurs sources se distingue par les plus faibles disparités, ce qui suggère une voie potentielle pour réduire les biais. Nous constatons que ces disparités de TPR ne sont pas significativement corrélées avec la charge relative de maladie observée dans chaque sous-groupe. Alors que les modèles cliniques passent des publications aux produits, nous encourageons les décideurs cliniques à effectuer une vérification rigoureuse des disparités algorithmiques avant tout déploiement. Le code de cette étude est disponible à l’adresse suivante : https://github.com/LalehSeyyed/CheXclusion