Focal-UNet: UNet-ähnliche fokale Modulation für die medizinische Bildsegmentierung

In jüngster Zeit wurden zahlreiche Versuche unternommen, eine transformerbasierte U-förmige Architektur zu konstruieren, wobei neuartige Methoden vorgestellt wurden, die CNN-basierte Ansätze übertrafen. Dennoch bestehen erhebliche Probleme wie Blockierungsartefakte und abgeschnittene Kanten in den vorhergesagten Masken, die auf die Patch-Partitionierung von Transformers zurückzuführen sind. In dieser Arbeit stellen wir eine neue U-förmige Architektur für die medizinische Bildsegmentierung vor, die durch die neu eingeführte fokale Modulationsmechanik unterstützt wird. Die vorgeschlagene Architektur weist asymmetrische Tiefen für Encoder und Decoder auf. Aufgrund der Fähigkeit des fokalen Moduls, lokale und globale Merkmale zu aggregieren, kann unser Modell gleichzeitig vom weiten Empfindungsfeld von Transformers und der lokalen Sichtweise von CNNs profitieren. Dies ermöglicht eine bessere Balance zwischen lokalen und globalen Merkmalsnutzungen und führt dazu, dass unsere Methode eine der leistungsstärksten transformerbasierten U-förmigen Modelle, Swin-UNet, übertrifft. Auf dem Synapse-Datensatz erreichten wir einen um 1,68 % höheren DICE-Score und eine um 0,89 bessere HD-Metrik. Auch bei extrem begrenzten Daten erzielten wir auf dem NeoPolyp-Datensatz einen um 4,25 % höheren DICE-Score. Unsere Implementierungen sind unter folgender Adresse verfügbar: https://github.com/givkashi/Focal-UNet