vor 17 Tagen

Der Fully Convolutional Transformer für die medizinische Bildsegmentierung

Athanasios Tragakis, Chaitanya Kaul, Roderick Murray-Smith, Dirk Husmeier

Abstract

Wir stellen ein neuartiges Transformer-Modell vor, das in der Lage ist, medizinische Bilder verschiedener Modalitäten zu segmentieren. Die fein granulare Natur der medizinischen Bildanalyse stellt jedoch erhebliche Herausforderungen dar, weshalb die Anpassung von Transformers für diese Aufgaben noch in den Anfängen steckt. Der überwältigende Erfolg des UNet beruhte auf seiner Fähigkeit, die fein granularen Aspekte der Segmentierungsaufgabe angemessen zu erfassen – eine Fähigkeit, die bestehende transformerbasierte Modelle derzeit noch nicht besitzen. Um diese Lücke zu schließen, schlagen wir den Fully Convolutional Transformer (FCT) vor, der die bewährte Fähigkeit von Faltungsneuralen Netzen zur Lernung effektiver Bilddarstellungen nutzt und diese mit der Fähigkeit von Transformers zur effektiven Erfassung langfristiger Abhängigkeiten in den Eingabedaten verbindet. Der FCT ist das erste vollständig faltungsorientierte Transformer-Modell in der Literatur zur medizinischen Bildanalyse. Er verarbeitet seine Eingaben in zwei Stufen: Zunächst lernt er, langreichweite semantische Abhängigkeiten aus dem Eingabebild zu extrahieren, und anschließend hierarchische globale Merkmale aus den gelernten Features zu erfassen. Der FCT ist kompakt, präzise und robust. Unsere Ergebnisse zeigen, dass er auf mehreren medizinischen Segmentierungsdatensätzen unterschiedlicher Modalitäten alle bestehenden Transformer-Architekturen deutlich übertrifft, ohne dass eine Vortrainierung erforderlich ist. Auf dem ACDC-Datensatz erreicht der FCT eine Verbesserung um 1,3 %, auf dem Synapse-Datensatz um 4,4 %, auf dem Spleen-Datensatz um 1,2 % und auf dem ISIC-2017-Datensatz um 1,1 % im Dice-Score – mit bis zu fünfmal weniger Parametern. Unsere Codebase, die Umgebungen und die Modelle werden über GitHub verfügbar gemacht.