SegFormer3D : un Transformer efficace pour la segmentation d’images médicales 3D

L’adoption des architectures fondées sur les Vision Transformers (ViTs) représente une avancée significative dans le domaine du segmentage d’images médicales 3D, dépassant les modèles traditionnels à réseaux de neurones convolutifs (CNN) grâce à une meilleure compréhension contextuelle globale. Bien que ce changement de paradigme ait considérablement amélioré les performances du segmentage 3D, les architectures les plus récentes nécessitent des architectures très grandes et complexes, ainsi que des ressources informatiques massives pour l’entraînement et le déploiement. En outre, dans le contexte de jeux de données limités, fréquemment observés en imagerie médicale, les modèles volumineux peuvent poser des difficultés en matière de généralisation et de convergence. Pour répondre à ces défis et démontrer que les modèles légers constituent un domaine de recherche pertinent en imagerie médicale 3D, nous proposons SegFormer3D, un Transformer hiérarchique qui calcule l’attention sur des caractéristiques volumétriques à plusieurs échelles. De plus, SegFormer3D évite les décodesurs complexes en utilisant un décodeur entièrement basé sur des réseaux de perceptrons multicouches (MLP) pour agréger les caractéristiques d’attention locales et globales, produisant ainsi des masques de segmentation hautement précis. Le Transformer proposé, conçu pour une faible consommation de mémoire, préserve les performances d’un modèle bien plus volumineux dans une architecture compacte. SegFormer3D rend accessible le deep learning pour le segmentage d’images médicales 3D en offrant un modèle avec 33 fois moins de paramètres et une réduction de 13 fois en GFLOPS par rapport à l’état de l’art actuel (SOTA). Nous évaluons SegFormer3D sur trois jeux de données largement utilisés — Synapse, BRaTs et ACDC — en comparaison avec les modèles SOTA, obtenons des résultats compétitifs. Code : https://github.com/OSUPCVLab/SegFormer3D.git