Swin-Unet: Unet-ähnlicher reiner Transformer für die medizinische Bildsegmentierung

In den letzten Jahren haben Faltungsneuronale Netze (CNNs) Meilensteine in der medizinischen Bildanalyse erreicht. Insbesondere tiefgehende neuronale Netze auf Basis einer U-förmigen Architektur mit Skip-Connections wurden weithin in einer Vielzahl medizinischer Bildaufgaben eingesetzt. Dennoch kann das CNN aufgrund der Lokalität der Faltungsvorgänge die Wechselwirkung globaler und langstreckiger semantischer Informationen nur unzureichend lernen. In diesem Beitrag stellen wir Swin-Unet vor, ein rein auf Transformer basierendes, U-förmiges Netzwerk für die Segmentierung medizinischer Bilder. Die tokenisierten Bildpatches werden in eine auf Transformer basierende, U-förmige Encoder-Decoder-Architektur mit Skip-Connections eingespeist, um lokale und globale semantische Merkmale zu lernen. Konkret verwenden wir eine hierarchische Swin-Transformer-Architektur mit verschobenen Fenstern als Encoder zur Extraktion kontextueller Merkmale. Außerdem wurde ein symmetrischer Swin-Transformer-basierter Decoder mit einer Patch-Vergrößerungsschicht entworfen, um die Upsampling-Operation durchzuführen und die räumliche Auflösung der Merkmalskarten wiederherzustellen. Bei direkter Untersampling- und Upsampling-Operation der Eingaben und Ausgaben um den Faktor 4 zeigen Experimente an mehreren Organen und der Herzssegmentierung, dass das rein auf Transformer basierende, U-förmige Encoder-Decoder-Netzwerk die Leistungsfähigkeit von Methoden mit vollständiger Faltung oder der Kombination aus Transformer und Faltung übertrifft. Der Quellcode und die trainierten Modelle werden öffentlich unter https://github.com/HuCaoFighting/Swin-Unet zur Verfügung gestellt.