MISSFormer : Un Transformer efficace pour la segmentation d'images médicales

Les méthodes basées sur les réseaux de neurones convolutifs (CNN) ont obtenu des résultats remarquables dans la segmentation d’images médicales, mais elles échouent à capturer les dépendances à longue portée en raison de la localité intrinsèque de l’opération de convolution. Les méthodes basées sur les Transformers sont récemment devenues populaires dans les tâches de vision par ordinateur grâce à leur capacité à modéliser les dépendances à longue portée et à leurs performances prometteuses. Toutefois, elles peinent à modéliser le contexte local. Dans cet article, en prenant comme exemple la segmentation d’images médicales, nous proposons MISSFormer, un Transformer efficace et puissant pour la segmentation d’images médicales. MISSFormer est un réseau hiérarchique encodeur-décodeur doté de deux innovations remarquables : 1) Un réseau feed-forward est réaménagé à l’aide du bloc Transformer amélioré proposé, qui renforce les dépendances à longue portée tout en complétant le contexte local, rendant ainsi les caractéristiques plus discriminantes. 2) Nous introduisons le pont de contexte Transformer amélioré, qui, contrairement aux méthodes antérieures se limitant à modéliser uniquement l’information globale, extrait à la fois les dépendances à longue portée et le contexte local à partir des caractéristiques multi-échelles générées par notre encodeur Transformer hiérarchique. Grâce à ces deux innovations, MISSFormer démontre une capacité solide à capturer des dépendances et un contexte plus discriminants dans la segmentation d’images médicales. Les expériences menées sur des tâches de segmentation multi-organes et cardiaque illustrent l’efficacité, la supériorité et la robustesse de notre méthode. Les résultats expérimentaux montrent que MISSFormer entraîné depuis le début surpassent même certains états de l’art pré-entraînés sur ImageNet. Les principes fondamentaux de cette approche peuvent être généralisés à d’autres tâches de segmentation visuelle. Le code source est disponible sur GitHub : https://github.com/ZhifangDeng/MISSFormer