MobileUNETR: Ein leichtgewichtiger end-to-end hybrider Vision Transformer für effiziente medizinische Bildsegmentierung

Die Segmentierung von Hautkrebs stellt eine erhebliche Herausforderung in der medizinischen Bildanalyse dar. Viele bestehende Lösungen, vor allem auf Basis von CNNs (Convolutional Neural Networks), haben Probleme im Zusammenhang mit einem mangelnden Verständnis des globalen Kontextes. Alternativ greifen einige Ansätze auf umfangreiche Transformer-Modelle zurück, um die Lücken im globalen Kontext zu schließen, was jedoch zu einer Erhöhung der Modellgröße und der Rechenkomplexität führt. Schließlich basieren viele Transformer-gestützte Ansätze hauptsächlich auf CNN-basierten Dekodern und vernachlässigen die Vorteile von Transformer-basierten Dekodierungsmodellen. In Anerkennung dieser Einschränkungen adressieren wir das Bedürfnis nach effizienten und leichtgewichtigen Lösungen durch die Einführung von MobileUNETR, das darauf abzielt, die Leistungsbeschränkungen sowohl von CNNs als auch von Transformatoren zu überwinden, während es gleichzeitig die Modellgröße minimiert. MobileUNETR verfügt über drei Hauptmerkmale: 1) MobileUNETR besteht aus einem leichtgewichtigen hybriden CNN-Transformer-Encoder, der es ermöglicht, lokale und globale kontextuelle Merkmalsextraktion auf effiziente Weise auszubalancieren; 2) Ein neuartiger hybrider Decoder, der während des Decoding-Prozesses gleichzeitig niederstufige und globale Merkmale in verschiedenen Auflösungen nutzt, um genaue Masken zu generieren; 3) Trotz seiner Kompaktheit übertreffen MobileUNETR große und komplexe Architekturen durch seine überlegene Leistung bei 3 Millionen Parametern und einer Rechenkomplexität von 1,3 GFLOPs (Giga Floating Point Operations per Second), was jeweils eine Reduktion der Parameter um den Faktor 10 und der FLOPs um den Faktor 23 bedeutet. Um die Effektivität unserer vorgeschlagenen Methode zu validieren, wurden umfangreiche Experimente anhand vier öffentlich zugänglicher Hautlésionssegmentierung-Datensätze durchgeführt, einschließlich ISIC 2016, ISIC 2017, ISIC 2018 und PH2-Datensätze. Der Code wird öffentlich zur Verfügung gestellt unter: https://github.com/OSUPCVLab/MobileUNETR.git