Autoencodeurs Variationnels pour l'Exploration des Caractéristiques et la Prédiction de la Malveillance des Lésions Pulmonaires

Le cancer du poumon est responsable de 21 % des décès par cancer au Royaume-Uni et les taux de survie à cinq ans sont fortement influencés par le stade auquel le cancer a été diagnostiqué. Des études récentes ont démontré la capacité des méthodes d'IA à réaliser un diagnostic précis et précoce du cancer du poumon à partir de scanners de routine. Cependant, ces preuves n'ont pas encore été traduites en pratique clinique, l'un des obstacles étant le manque de modèles interprétables. Cette étude examine l'application des autoencodeurs variationnels (VAEs), un type de modèle d'IA génératif, aux lésions pulmonaires. Les modèles proposés ont été entraînés sur des lésions extraites de scanners 3D CT dans le jeu de données public LIDC-IDRI. Les représentations vectorielles latentes des tranches 2D produites par les VAEs ont été explorées par regroupement pour justifier leur qualité et utilisées dans un modèle de classification MLP pour le diagnostic du cancer du poumon, le meilleur modèle ayant atteint des métriques de pointe avec une AUC de 0,98 et une précision de 93,1 %. L'analyse par regroupement montre que l'espace latent VAE sépare le jeu de données contenant les lésions malignes et bénignes en fonction de composantes caractéristiques significatives, notamment la taille et la forme des tumeurs, ainsi que la classe maligne du patient. Nous incluons également une analyse comparative entre l'autoencodeur variationnel gaussien standard (GVAE) et le plus récent autoencodeur variationnel dirichlet (DirVAE), qui remplace la loi a priori par une distribution dirichlet pour favoriser un espace latent plus explicable avec une représentation décorrélée des caractéristiques. Enfin, nous démontrons le potentiel des parcours dans l'espace latent correspondant à des changements caractéristiques cliniquement significatifs.