LM-Net: Ein leichtgewichtiges und mehrskaliges Netzwerk für die Segmentierung medizinischer Bilder

Aktuelle Ansätze zur medizinischen Bildsegmentierung haben Einschränkungen bei der tiefen Erforschung von Multi-Skalen-Informationen und der effektiven Kombination lokaler Detailtexturen mit globalen kontextuellen semantischen Informationen. Dies führt zu Übersegmentierung, Untersegmentierung und unscharfen Segmentationsgrenzen. Um diese Herausforderungen anzugehen, untersuchen wir Multi-Skalen-Feature-Darstellungen aus verschiedenen Perspektiven und schlagen eine neuartige, leichte und multi-skalierte Architektur (LM-Net) vor, die Vorteile sowohl von Faltungsneuralnetzen (CNNs) als auch von Visionstransformatoren (ViTs) kombiniert, um die Segmentierungspräzision zu verbessern. LM-Net verwendet ein leichtes Mehrzweigmodul, um Multi-Skalen-Features auf derselben Ebene zu erfassen. Darüber hinaus stellen wir zwei Module vor, die gleichzeitig lokale Detailtexturen und globale Semantik mit Multi-Skalen-Features auf verschiedenen Ebenen erfassen: den Lokalen Featuretransformer (LFT) und den Globalen Featuretransformer (GFT). Der LFT integriert lokale Fensterselbstaufmerksamkeit (local window self-attention), um lokale Detailtexturen zu erfassen, während der GFT globale Selbstaufmerksamkeit nutzt, um globale kontextuelle Semantik zu erfassen. Durch die Kombination dieser Module erreicht unser Modell Komplementarität zwischen lokalen und globalen Darstellungen, was das Problem unscharfer Segmentationsgrenzen in der medizinischen Bildsegmentierung lindert. Um die Machbarkeit von LM-Net zu evaluieren, wurden umfangreiche Experimente an drei öffentlich zugänglichen Datensätzen mit unterschiedlichen Modalitäten durchgeführt. Unser vorgeschlagenes Modell erzielt Stand-of-the-Art-Ergebnisse und übertrifft dabei frühere Methoden, benötigt aber nur 4,66G FLOPs und 5,4M Parameter. Diese Stand-of-the-Art-Ergebnisse an drei Datensätzen mit unterschiedlichen Modalitäten belegen die Effektivität und Anpassungsfähigkeit unseres vorgeschlagenen LM-Nets für verschiedene medizinische Bildsegmentierungsaufgaben.