ESFPNet : architecture d'apprentissage profond efficace pour la segmentation en temps réel des lésions dans les vidéos bronchoscopiques à autofluorescence

Le cancer du poumon est généralement détecté à un stade avancé, ce qui entraîne un taux élevé de mortalité chez les patients. Par conséquent, de nombreuses recherches récentes se concentrent sur la détection précoce de la maladie. La bronchoscopie constitue la procédure de choix pour une méthode non invasive efficace permettant de repérer précocement les manifestations (lésions bronchiques) du cancer du poumon. En particulier, la bronchoscopie à autofluorescence (AFB) permet de distinguer les propriétés d’autofluorescence des tissus sains (vert clair) et des tissus pathologiques (brun rougeâtre) grâce à des contrastes colorés distincts. Étant donné que des études récentes mettent en évidence la grande sensibilité de l’AFB dans la détection des lésions, cette technique est devenue une méthode potentiellement clé dans les examens bronchoscopiques des voies respiratoires. Toutefois, l’inspection manuelle des vidéos AFB est extrêmement fastidieuse et sujette à erreur, tandis que très peu d’efforts ont été consacrés à une analyse automatique des lésions AFB plus robuste. Nous proposons une architecture d’apprentissage profond appelée ESFPNet, capable de traiter en temps réel (débit de traitement de 27 images par seconde) la segmentation précise et la détection robuste des lésions bronchiques dans les flux vidéo AFB. Cette architecture repose sur une structure d’encodeur exploitant des encodeurs préentraînés Mix Transformer (MiT) et sur une structure de décodeur pyramidale à étapes efficace (ESFP). Les résultats de segmentation obtenus à partir des vidéos d’examen bronchique AFB de 20 patients atteints de cancer du poumon montrent que notre approche atteint un indice Dice moyen de 0,756 et une moyenne d’intersection sur union (IoU) de 0,624, des performances supérieures à celles des architectures récentes. Ainsi, ESFPNet offre aux médecins un outil potentiel leur permettant une segmentation et une détection fiables en temps réel des lésions lors d’un examen bronchoscopique en direct. En outre, notre modèle démontre un potentiel d’application prometteur dans d’autres domaines, comme en témoigne sa performance de pointe (SOTA) sur les jeux de données CVC-ClinicDB et ETIS-LaribPolypDB, ainsi qu’une performance supérieure sur les jeux de données Kvasir et CVC-ColonDB.