HyperAIHyperAI
vor 17 Tagen

MIST: Medical Image Segmentation Transformer mit convolutionalem Aufmerksamkeitsmischungs-(CAM)-Decoder

Md Motiur Rahman, Shiva Shokouhmand, Smriti Bhatt, Miad Faezipour
MIST: Medical Image Segmentation Transformer mit convolutionalem Aufmerksamkeitsmischungs-(CAM)-Decoder
Abstract

Ein gängiger und vielversprechender Ansatz im Bereich des tiefen Lernens für die Segmentierung medizinischer Bilder sind Transformers, da sie über die Nutzung von Self-Attention langreichweitige Abhängigkeiten zwischen Pixeln erfassen können. Trotz ihrer Erfolge bei der Segmentierung medizinischer Bilder stoßen Transformers jedoch auf Einschränkungen hinsichtlich der Erfassung lokaler Kontextinformationen in mehrdimensionalen Modalitäten. Wir stellen einen Medical Image Segmentation Transformer (MIST) vor, der einen neuartigen Convolutional Attention Mixing (CAM)-Decoder zur Lösung dieses Problems einsetzt. MIST besteht aus zwei Hauptkomponenten: Als Encoder wird ein vortrainierter Multi-Axis Vision Transformer (MaxViT) verwendet, dessen codierte Merkmalsrepräsentation anschließend durch den CAM-Decoder zur Bildsegmentierung verarbeitet wird. Im CAM-Decoder wird ein Attention-Mixer eingeführt, der Multi-Head Self-Attention, räumliche Aufmerksamkeit sowie Squeeze-and-Excitation-Attention-Module kombiniert, um langreichweitige Abhängigkeiten in allen räumlichen Dimensionen effektiv zu erfassen. Zudem werden tiefgehende und flache Faltungen eingesetzt, um die Gewinnung räumlicher Information zu verbessern und den Rezeptivfeldumfang zu erweitern. Durch Skip-Verbindungen wird die Integration von niedrig- und hochstufigen Merkmalen aus verschiedenen Netzwerkstufen ermöglicht, wodurch MIST unerwünschte Informationen unterdrücken kann. Experimente zeigen, dass unser MIST-Transformer mit CAM-Decoder die Leistungszahlen von State-of-the-Art-Modellen, die speziell für die Segmentierung medizinischer Bilder entwickelt wurden, auf den Datensätzen ACDC und Synapse übertrifft. Unsere Ergebnisse belegen zudem, dass die Integration eines hierarchischen Transformers mit dem CAM-Decoder die Segmentierungsleistung signifikant verbessert. Unser Modell sowie der zugehörige Quellcode sind öffentlich auf GitHub verfügbar.

MIST: Medical Image Segmentation Transformer mit convolutionalem Aufmerksamkeitsmischungs-(CAM)-Decoder | Neueste Forschungsarbeiten | HyperAI