RaBiT : Un Transformer efficace utilisant un réseau pyramidal de caractéristiques bidirectionnel avec une attention inverse pour la segmentation des polypes coliques

La segmentation automatique et précise des polypes coliques est essentielle pour le diagnostic précoce du cancer colorectal. Les modèles avancés basés sur l'apprentissage profond ont montré des résultats prometteurs en matière de segmentation des polypes. Toutefois, ils présentent encore des limites en ce qui concerne la représentation des caractéristiques multi-échelles et leur capacité de généralisation. Pour pallier ces défis, cette étude introduit RaBiT, un modèle encodeur-décodeur qui intègre une architecture légère basée sur le Transformer dans l’encodeur afin de modéliser les relations sémantiques globales à plusieurs niveaux. Le décodeur est composé de plusieurs couches de pyramide de caractéristiques bidirectionnelles équipées de modules d’attention inversée, permettant une fusion améliorée des cartes de caractéristiques à différents niveaux et un affinement progressif des contours des polypes. Nous proposons également des améliorations pour alléger le module d’attention inversée, le rendant plus adapté à la segmentation multi-classes. Des expériences étendues sur plusieurs jeux de données de référence montrent que notre méthode surpasse les approches existantes sur tous les jeux de données tout en préservant une faible complexité computationnelle. En outre, notre méthode démontre une forte capacité de généralisation dans les expériences croisées entre jeux de données, même lorsque les ensembles d’entraînement et de test présentent des caractéristiques différentes.