Polyp-PVT : Segmentation de polypes avec des Transformers à vision pyramidaux

La plupart des méthodes actuelles de segmentation des polypes reposent sur des réseaux de neurones convolutifs (CNN) comme architecture principale, ce qui soulève deux problèmes clés lors de l’échange d’informations entre l’encodeur et le décodeur : 1) tenir compte des différences d’apport entre les caractéristiques de niveaux différents, et 2) concevoir un mécanisme efficace pour fusionner ces caractéristiques. Contrairement aux méthodes basées sur les CNN existantes, nous adoptons un encodeur Transformer, capable d’apprendre des représentations plus puissantes et plus robustes. En outre, en tenant compte des influences liées à l’acquisition d’images ainsi que des propriétés insaisissables des polypes, nous introduisons trois modules standards : un module de fusion en cascade (CFM), un module d’identification de camouflage (CIM) et un module d’agrégation de similarité (SAM). Le CFM permet de collecter les informations sémantiques et de localisation des polypes à partir des caractéristiques de haut niveau ; le CIM est utilisé pour capturer les informations relatives aux polypes masqués dans les caractéristiques de bas niveau ; quant au SAM, il étend les caractéristiques des pixels de la région polypaire, enrichies par des informations sémantiques et positionnelles de haut niveau, à l’ensemble de la région polypaire, permettant ainsi une fusion efficace des caractéristiques multi-niveaux. Le modèle proposé, nommé Polyp-PVT, parvient à supprimer efficacement le bruit dans les caractéristiques tout en améliorant significativement leur expressivité. Des expérimentations étendues sur cinq jeux de données largement utilisés démontrent que le modèle proposé est plus robuste face à diverses situations difficiles (par exemple, changements d’apparence, objets de petite taille, rotations) que les méthodes représentatives existantes. Le modèle est disponible à l’adresse suivante : https://github.com/DengPingFan/Polyp-PVT.