Un ensemble à base de classement flou de modèles CNN pour la classification de la cytométrie cervicale

Le cancer du col utérin touche plus de 0,5 million de femmes chaque année, entraînant plus de 0,3 million de décès. La détection précoce de cette maladie est essentielle pour l’éradication complète du cancer chez les patientes. Toutefois, le dépistage régulier à grande échelle est limité par des procédés de détection coûteux et très exigeants en main-d’œuvre, car les cliniciens doivent classer individuellement des cellules provenant d’un frottis coloré contenant plus de 100 000 cellules cervicales afin de détecter une éventuelle malignité. En conséquence, les systèmes d’aide au diagnostic assisté par ordinateur (CAD) apparaissent comme une alternative viable pour une détection rapide et efficace du cancer. Dans cet article, nous proposons une méthode fondée sur un modèle d’ensemble basé sur trois architectures de réseaux de neurones convolutifs (CNN) pré-entraînées sur le jeu de données ImageNet : Inception v3, Xception et DenseNet-169, utilisées pour la classification de cellules individuelles et d’images de lame entière colorées au Pap. Le schéma d’ensemble proposé repose sur une fusion fondée sur le rang flou des classificateurs, en tenant compte de deux fonctions non linéaires appliquées aux scores de décision générés par les classificateurs de base. Contrairement aux méthodes de fusion simples décrites dans la littérature, la technique d’ensemble proposée prend en compte le degré de confiance des prédictions des classificateurs de base pour établir les prédictions finales sur les échantillons de test. Le modèle a été évalué sur deux jeux de données publics de référence : le jeu de données SIPaKMeD Pap Smear et le jeu de données Mendeley Liquid Based Cytology (LBC), selon une stratégie de validation croisée à 5 plis. Sur le jeu de données SIPaKMeD Pap Smear, le cadre proposé atteint une précision de 98,55 % et une sensibilité de 98,52 % dans le cas à deux classes, ainsi qu’une précision de 95,43 % et une sensibilité de 98,52 % dans le cas à cinq classes. Sur le jeu de données Mendeley LBC, la précision atteinte est de 99,23 % et la sensibilité également de 99,23 %. Les résultats obtenus surpassent ceux de nombreux modèles de pointe, ce qui confirme l’efficacité de la méthode proposée. Le code source correspondant à ce modèle est disponible publiquement sur GitHub.