UNeXt: MLP-basierter schneller Netzwerkansatz für die medizinische Bildsegmentierung

UNet und ihre jüngsten Erweiterungen wie TransUNet sind in den letzten Jahren zu führenden Methoden für die medizinische Bildsegmentierung geworden. Dennoch eignen sich diese Netzwerke aufgrund ihres hohen Parameterbedarfs, ihrer rechnerischen Komplexität und der langsamen Ausführung nicht effektiv für die schnelle Bildsegmentierung in point-of-care-Anwendungen. Um diesem Problem zu begegnen, stellen wir UNeXt vor – ein auf einem convolutionalen Multilayer Perceptron (MLP) basierendes Netzwerk für die Bildsegmentierung. UNeXt ist effizient gestaltet und verfügt über eine frühe convolutionale Phase sowie eine MLP-Phase im latenten Raum. Wir schlagen einen tokenisierten MLP-Block vor, bei dem die convolutionalen Merkmale effizient tokenisiert und projiziert werden, um anschließend mittels MLPs die Repräsentation zu modellieren. Um die Leistung weiter zu steigern, führen wir eine Kanalverschiebung der Eingabedaten ein, bevor sie in die MLPs gelangen, um das Lernen lokaler Abhängigkeiten zu fördern. Die Verwendung tokenisierter MLPs im latenzraum reduziert die Anzahl der Parameter und die rechnerische Komplexität, während gleichzeitig eine verbesserte Repräsentation entsteht, die die Segmentierung unterstützt. Zudem integriert das Netzwerk Skip-Verbindungen zwischen verschiedenen Ebenen des Encoders und Decoders. Wir testen UNeXt auf mehreren Datensätzen für medizinische Bildsegmentierung und zeigen, dass wir die Anzahl der Parameter um das 72-fache reduzieren, die rechnerische Komplexität um das 68-fache verringern und die Inferenzgeschwindigkeit um das 10-fache beschleunigen, während gleichzeitig eine bessere Segmentierungsgenauigkeit gegenüber den aktuellen State-of-the-Art-Architekturen für medizinische Bildsegmentierung erzielt wird. Der Quellcode ist unter https://github.com/jeya-maria-jose/UNeXt-pytorch verfügbar.