SegFormer3D: Ein effizienter Transformer für die 3D-medizinische Bildsegmentierung

Die Einführung von Architekturen basierend auf Vision Transformers (ViTs) stellt einen bedeutenden Fortschritt in der Segmentierung von 3D-medizinischen Bildern (MI) dar, da sie traditionelle Convolutional Neural Network (CNN)-Modelle durch eine verbesserte Erfassung globaler Kontextinformationen übertrifft. Während dieser Paradigmenwechsel die Leistung der 3D-Segmentierung erheblich gesteigert hat, erfordern derzeit state-of-the-art (SOTA)-Architekturen äußerst große und komplexe Modelle, die erhebliche Rechenressourcen für das Training und die Bereitstellung benötigen. Zudem können in der medizinischen Bildverarbeitung häufig auftretende begrenzte Datensätze bei größeren Modellen Schwierigkeiten bei der Generalisierbarkeit und Konvergenz verursachen. Um diesen Herausforderungen entgegenzuwirken und zu zeigen, dass leichte Modelle ein wertvoller Forschungsbereich im Bereich der 3D-medizinischen Bildanalyse darstellen, präsentieren wir SegFormer3D – einen hierarchischen Transformer, der Aufmerksamkeit über mehrskalige volumetrische Merkmale berechnet. Zudem verzichtet SegFormer3D auf komplexe Dekoder und nutzt stattdessen einen rein-MLP-Dekoder, um lokale und globale Aufmerksamkeitsmerkmale zu aggregieren, um hochgenaue Segmentierungsmasken zu erzeugen. Der vorgeschlagene speichereffiziente Transformer bewahrt die Leistungsmerkmale eines deutlich größeren Modells in einer kompakten Architektur. SegFormer3D macht tiefes Lernen für die Segmentierung von 3D-medizinischen Bildern zugänglicher, indem er ein Modell mit 33-fach weniger Parametern und einer Reduktion um den Faktor 13 in GFLOPS gegenüber dem aktuellen SOTA bietet. Wir evaluieren SegFormer3D anhand dreier weit verbreiteter Datensätze – Synapse, BRaTs und ACDC – und erreichen dabei wettbewerbsfähige Ergebnisse. Code: https://github.com/OSUPCVLab/SegFormer3D.git