Fusion de caractéristiques pas à pas : des guides locaux vers le global

La coloscopie, actuellement la technologie la plus efficace et reconnue pour la détection des polypes coliques, est essentielle pour le dépistage précoce et la prévention du cancer colorectal. Toutefois, en raison de la variabilité de la taille des polypes coliques ainsi que de leurs caractéristiques morphologiques complexes, ainsi que de la frontière floue entre les polypes et la muqueuse, la segmentation précise des polypes reste un défi. L’apprentissage profond s’est imposé comme une méthode efficace pour la segmentation des polypes, offrant des résultats remarquables. Néanmoins, en raison de la structure particulière des images de polypes et de la grande variété de leurs formes, les modèles d’apprentissage profond existants sont facilement sujets au surapprentissage sur les jeux de données actuels. Par conséquent, ces modèles peuvent échouer lorsqu’ils sont confrontés à des données de coloscopie inédites. Pour remédier à ce problème, nous proposons un nouveau modèle de pointe pour la segmentation d’images médicales, nommé SSFormer, qui utilise un encodeur Transformer en pyramide afin d’améliorer la capacité de généralisation des modèles. Plus précisément, notre décodeur à localité progressive peut être intégré au squelette Transformer en pyramide pour renforcer les caractéristiques locales tout en limitant la dispersion de l’attention. Le SSFormer atteint des performances de pointe tant en apprentissage qu’en évaluation de généralisation.