Modality-agnostische domainspezifische medizinische Bildsegmentierung durch Multi-Frequency in Multi-Scale Attention

Die Generalisierbarkeit in tiefen neuronalen Netzen spielt eine entscheidende Rolle bei der Segmentierung medizinischer Bilder. Dennoch neigen tiefes Lernen-basierte Analysen medizinischer Bilder dazu, die Bedeutung der Frequenzvarianz zu vernachlässigen, die ein kritischer Faktor für Modelle ist, die modalitätsunabhängig und domaingeneralisierbar sind. Zudem berücksichtigen verschiedene Modelle nicht die mögliche Informationsverluste, die durch Multi-Task-Lernen unter tiefer Überwachung entstehen können, was die Fähigkeit des Modells zur repräsentativen Lernung beeinträchtigen kann. Um diesen Herausforderungen zu begegnen, schlagen wir ein modality-agnostisches, domaingeneralisierbares Netzwerk (MADGNet) für die Segmentierung medizinischer Bilder vor, das zwei zentrale Komponenten umfasst: einen Multi-Frequency-in-Multi-Scale Attention (MFMSA)-Block und ein Ensemble-Sub-Decoder-Modul (E-SDM). Der MFMSA-Block verbessert den Prozess der räumlichen Merkmalsextraktion, insbesondere bei der Erfassung von Randmerkmalen, durch die Integration von mehrfrequenz- und multiskaligen Merkmalen und liefert so informative Hinweise für die Konturierung von Geweben und anatomischen Strukturen. Darüber hinaus schlagen wir das E-SDM vor, um Informationsverluste im Rahmen des Multi-Task-Lernens unter tiefer Überwachung, insbesondere bei starken Upsampling-Schritten von niedriger Auflösung, zu verringern. Wir evaluieren die Segmentierungseffizienz von MADGNet an sechs Modalitäten und fünfzehn Datensätzen. Durch umfangreiche Experimente zeigen wir, dass MADGNet über verschiedene Modalitäten hinweg konsistent state-of-the-art-Modelle übertrifft und eine herausragende Segmentierungsgenauigkeit aufweist. Dies bekräftigt MADGNet als eine robuste Lösung für die Segmentierung medizinischer Bilder, die sich in vielfältigen Bildgebungsszenarien bewährt. Der Quellcode von MADGNet ist über den GitHub-Link verfügbar.