IA en santé pulmonaire : Benchmarking des modèles de détection et de diagnostic sur plusieurs jeux de données de scanners CT

Le cancer du poumon reste la première cause de décès lié au cancer dans le monde, et la détection précoce par tomodensitométrie à faible dose (LDCT) s’est révélée particulièrement prometteuse pour réduire les taux de mortalité. Avec l’intégration croissante de l’intelligence artificielle (IA) dans l’imagerie médicale, le développement et l’évaluation de modèles d’IA robustes nécessitent l’accès à de grands ensembles de données bien annotés. Dans cette étude, nous introduisons l’utilité du jeu de données Duke Lung Cancer Screening (DLCS), le plus grand ensemble de données ouvertes en LDCT à ce jour, comprenant plus de 2 000 scans et 3 000 nodules vérifiés par des experts. Nous établissons une référence (benchmark) pour des modèles d’apprentissage profond en détection de nodules 3D et en classification du cancer du poumon, sur des jeux de données internes et externes, notamment LUNA16, LUNA25 et NLST-3D+. Pour la détection, nous avons développé deux modèles RetinaNet basés sur MONAI (DLCSDmD et LUNA16-mD), évalués selon le Critère de Performance de Concours (CPM). Pour la classification, nous comparons cinq modèles, dont des modèles préentraînés de pointe (Genesis, Med3D), un modèle fondamental auto-supervisé (FMCB), un ResNet50 initialisé aléatoirement, ainsi qu’un nouveau modèle proposé, le SWS++ (Strategic Warm-Start++). Ce dernier utilise des patches candidats soigneusement sélectionnés pour préentraîner le noyau de classification dans le même pipeline de détection, permettant ainsi une apprentissage de caractéristiques pertinentes pour la tâche. Nos modèles ont démontré une forte généralisation, le modèle SWS++ atteignant des performances comparables ou supérieures à celles des modèles fondamentaux existants sur plusieurs jeux de données (AUC : 0,71 à 0,90). Tous les codes, modèles et données sont publiés librement afin de favoriser la reproductibilité et la collaboration. Ce travail établit une ressource standardisée pour le benchmarking dans la recherche sur l’IA du cancer du poumon, soutenant ainsi les efforts futurs en développement de modèles, validation et translation clinique.