G-CASCADE: Effizientes kaskadiertes graphenbasiertes Decoding für die 2D-Medizinische Bildsegmentierung

In den letzten Jahren ist die Segmentierung medizinischer Bilder zu einer wichtigen Anwendung im Bereich der computergestützten Diagnostik geworden. In dieser Arbeit schlagen wir als Erste einen neuen, auf Graphkonvolution basierenden Dekoder vor, nämlich den kaskadierten Graph-Konvolution-Attention-Dekoder (G-CASCADE), für die Segmentierung von 2D-medizinischen Bildern. Der G-CASCADE verfeinert schrittweise die mehrstufigen Featuremaps, die von hierarchischen Transformer-Encodern erzeugt werden, mit einem effizienten Graphkonvolutionblock. Der Encoder nutzt das Selbst-Aufmerksamkeitsmechanismus (Self-Attention Mechanism), um langreichweitige Abhängigkeiten zu erfassen, während der Dekoder die Featuremaps unter Beibehaltung langreichweitiger Informationen durch die globalen Rezeptivfelder des Graphkonvolutionblocks verfeinert. Sorgfältige Evaluierungen unseres Dekoders in Kombination mit mehreren Transformer-Encodern bei fünf Segmentierungsaufgaben medizinischer Bilder (d.h., Bauchorgane, Herzorgane, Polypenlesionen, Hautlesionen und Netzhautgefäße) zeigen, dass unser Modell andere Stand-of-the-Art-(SOTA)-Methoden übertrifft. Wir demonstrieren auch, dass unser Dekoder bessere DICE-Werte als der SOTA-CASCADE-Dekoder erreicht, wobei er gleichzeitig 80,8 % weniger Parameter und 82,3 % weniger FLOPs aufweist. Unser Dekoder kann leicht mit anderen hierarchischen Encodern kombiniert werden, um allgemeine semantische und medizinische Bildsegmentierungsaufgaben zu lösen.