EMCAD: Effiziente multi-skalige konvolutionale Aufmerksamkeits-Decodierung für die medizinische Bildsegmentierung

Ein effizienter und wirksamer Decoding-Mechanismus ist entscheidend für die Segmentierung medizinischer Bilder, insbesondere in Szenarien mit begrenzten Rechenressourcen. Allerdings sind solche Decoding-Mechanismen oft mit hohen Rechenkosten verbunden. Um diesem Problem entgegenzuwirken, stellen wir EMCAD vor – einen neuen, effizienten Multi-Scale-Convolutional-Attention-Decoder, der darauf ausgelegt ist, sowohl Leistung als auch Recheneffizienz zu optimieren. EMCAD nutzt einen einzigartigen Multi-Scale-Depthwise-Convolution-Block, der die Merkmalskarten durch Multi-Scale-Konvolutionen signifikant verbessert. Zudem setzt EMCAD Kanal-, räumliche und gruppierte (großes Kernel) gated Attention-Mechanismen ein, die äußerst effektiv sind, um komplexe räumliche Beziehungen zu erfassen und sich auf auffällige Regionen zu konzentrieren. Durch die Verwendung von Gruppen- und Depthwise-Konvolutionen ist EMCAD äußerst effizient und skaliert gut (beispielsweise werden bei Verwendung eines Standard-Encoders lediglich 1,91 M Parameter und 0,381 G FLOPs benötigt). Unsere umfassenden Evaluierungen an 12 Datensätzen, die sechs verschiedenen Aufgaben der medizinischen Bildsegmentierung entstammen, zeigen, dass EMCAD eine state-of-the-art (SOTA)-Leistung erzielt, wobei die Anzahl der Parameter (#Params) um 79,4 % und die Anzahl der FLOPs (#FLOPs) um 80,3 % reduziert werden können. Darüber hinaus unterstreicht die Anpassungsfähigkeit von EMCAD an verschiedene Encoder und seine Vielseitigkeit bei verschiedenen Segmentierungsaufgaben die hohe Relevanz dieses Ansatzes und etabliert EMCAD als vielversprechendes Werkzeug, das die Entwicklung hin zu effizienteren und genaueren Methoden der medizinischen Bildanalyse voranbringt. Unsere Implementierung ist unter https://github.com/SLDGroup/EMCAD verfügbar.