HyperAIHyperAI
vor 2 Monaten

MaxViT-UNet: Mehrachsige Aufmerksamkeit für die Segmentierung medizinischer Bilder

Khan, Abdul Rehman ; Khan, Asifullah
MaxViT-UNet: Mehrachsige Aufmerksamkeit für die Segmentierung medizinischer Bilder
Abstract

Seit ihrer Einführung haben Faltungsschicht-Neuronale Netze (CNNs) erhebliche Fortschritte im Bereich der medizinischen Bildanalyse gemacht. Allerdings kann die lokale Natur des Faltungsoperators eine Einschränkung darstellen, um globale und langreichweitige Interaktionen in CNNs zu erfassen. Kürzlich haben sich Transformer in der Computer Vision-Gemeinschaft und auch bei der Segmentierung von medizinischen Bildern durch ihre Fähigkeit zur effektiven Verarbeitung globaler Merkmale großer Beliebtheit erfreut. Die Skalierbarkeitsprobleme des Selbst-Aufmerksamkeitsmechanismus und das Fehlen eines CNN-ähnlichen induktiven Vorwissens haben jedoch möglicherweise deren Einführung begrenzt. Daher gewinnen hybride Visionstransformer (CNN-Transformer), die die Vorteile sowohl von Faltungen als auch vom Selbst-Aufmerksamkeitsmechanismus nutzen, an Bedeutung. In dieser Arbeit stellen wir MaxViT-UNet vor, einen neuen Encoder-Decoder-basierten UNet-artigen hybriden Visionstransformer (CNN-Transformer) für die Segmentierung von medizinischen Bildern. Der vorgeschlagene Hybriddecoder ist so konzipiert, dass er die Stärken sowohl der Faltung als auch des Selbst-Aufmerksamkeitsmechanismus in jedem Decodierschritt mit geringem Speicher- und Rechenaufwand nutzt. Die Einbeziehung einer mehrachsigen Selbst-Aufmerksamkeit in jedem Decodierschritt verbessert die Unterscheidungsfähigkeit zwischen Objekt- und Hintergrundregionen erheblich, was wiederum zur Steigerung der Segmentierungseffizienz beiträgt.Im Hybriddecoder wird außerdem ein neuer Block vorgeschlagen. Der Fusionprozess beginnt mit der Integration aufgeführter niedriger Decoder-Merkmale, die durch transponierte Faltung erhalten werden, mit den aus dem hybriden Encoder abgeleiteten Skip-Connection-Merkmalen. Anschließend werden die fusionierten Merkmale durch den Einsatz eines mehrachsigen Aufmerksamheitsmechanismus verfeinert. Der vorgeschlagene Decoderblock wird mehrfach wiederholt, um die Nukleiregionen schrittweise zu segmentieren.Experimentelle Ergebnisse auf den Datensätzen MoNuSeg18 und MoNuSAC20 zeigen die Effektivität der vorgeschlagenen Technik.

MaxViT-UNet: Mehrachsige Aufmerksamkeit für die Segmentierung medizinischer Bilder | Neueste Forschungsarbeiten | HyperAI