EMCAD : Décodage d'attention convolutive multi-échelle efficace pour la segmentation d'images médicales

Un mécanisme de décodage efficace et performant est essentiel dans la segmentation d’images médicales, en particulier dans les scénarios où les ressources computationnelles sont limitées. Toutefois, ces mécanismes de décodage sont généralement associés à des coûts computationnels élevés. Pour répondre à cette contrainte, nous introduisons EMCAD, un nouveau décodeur à convolutions multi-échelles à attention, conçu pour optimiser à la fois la performance et l’efficacité computationnelle. EMCAD exploite un bloc original de convolution profonde multi-échelle, qui améliore significativement les cartes de caractéristiques grâce à des convolutions multi-échelles. Il utilise également des mécanismes d’attention canal, spatiale et groupée (à noyau large), particulièrement efficaces pour capturer des relations spatiales complexes tout en se concentrant sur les régions les plus saillantes. Grâce à l’emploi de convolutions groupées et profondes, EMCAD est extrêmement efficace et se généralise bien : par exemple, il nécessite seulement 1,91 million de paramètres et 0,381 G d’opérations flottantes (FLOPs) lorsqu’il est utilisé avec un encodeur standard. Nos évaluations rigoureuses sur 12 jeux de données couvrant six tâches de segmentation d’images médicales montrent qu’EMCAD atteint des performances de pointe (SOTA) tout en réduisant respectivement de 79,4 % et 80,3 % le nombre de paramètres (#Params) et le nombre d’opérations flottantes (#FLOPs). En outre, la capacité d’adaptation d’EMCAD à différents encodeurs et sa polyvalence face à diverses tâches de segmentation en font un outil prometteur, contribuant ainsi à l’évolution vers une analyse d’images médicales plus efficace et plus précise. Notre implémentation est disponible à l’adresse suivante : https://github.com/SLDGroup/EMCAD.