MISSFormer: Ein effektiver Transformer für die medizinische Bildsegmentierung

Die auf CNN basierenden Methoden haben beeindruckende Ergebnisse bei der Segmentierung medizinischer Bilder erzielt, konnten jedoch aufgrund der inhärenten Lokalität der Faltungoperation keine langreichweitigen Abhängigkeiten erfassen. Transformer-basierte Ansätze sind in jüngster Zeit in visuellen Aufgaben aufgrund ihrer Fähigkeit, langreichweitige Abhängigkeiten zu modellieren und ihrer vielversprechenden Leistungsfähigkeit populär geworden. Sie leiden jedoch an einer unzureichenden Modellierung lokaler Kontextinformationen. In dieser Arbeit präsentieren wir anhand der Aufgabe der medizinischen Bildsegmentierung MISSFormer, einen effektiven und leistungsfähigen TranSFormer für die Segmentierung medizinischer Bilder. MISSFormer ist ein hierarchisches Encoder-Decoder-Netzwerk mit zwei ansprechenden Designmerkmalen: 1) Ein Feed-Forward-Netzwerk wurde mit dem vorgeschlagenen Enhanced Transformer Block neu gestaltet, wodurch die Langreichweiten-Abhängigkeiten verstärkt und der lokale Kontext ergänzt werden, was die Diskriminativität der Merkmale erhöht. 2) Wir haben den Enhanced Transformer Context Bridge vorgestellt, der sich von früheren Ansätzen unterscheidet, die lediglich globale Informationen modellieren. Der vorgeschlagene Kontextbrücke, kombiniert mit dem erweiterten Transformer-Block, extrahiert sowohl langreichweitige Abhängigkeiten als auch lokalen Kontext aus mehrskaligen Merkmalen, die durch unseren hierarchischen Transformer-Encoder generiert werden. Aufgrund dieser beiden innovativen Designprinzipien zeigt MISSFormer eine solide Fähigkeit, differenziertere Abhängigkeiten und Kontextinformationen in der medizinischen Bildsegmentierung zu erfassen. Experimente auf Aufgaben der Multi-Organ- und Herzssegmentierung belegen die Überlegenheit, Effektivität und Robustheit unseres MISSFormer. Die experimentellen Ergebnisse zeigen, dass MISSFormer, selbst wenn er von Grund auf trainiert wurde, die Leistungszahlen von State-of-the-Art-Methoden, die auf ImageNet vortrainiert wurden, übertreffen kann. Die Kernkonzepte sind auf andere visuelle Segmentierungsaufgaben übertragbar. Der Quellcode wurde auf GitHub veröffentlicht: https://github.com/ZhifangDeng/MISSFormer