HyperAIHyperAI
vor 3 Monaten

FCB-SwinV2 Transformer für die Polypen-Segmentierung

Kerr Fitzgerald, Bogdan Matuszewski
FCB-SwinV2 Transformer für die Polypen-Segmentierung
Abstract

Die Segmentierung von Polypen in Koloskopie-Videoframes mittels Deep-Learning-Modelle hat das Potenzial, den klinischen Arbeitsablauf zu automatisieren. Dies könnte die Früherkennungsrate und die Charakterisierung von Polypen verbessern, die zu kolorektalem Karzinom fortschreiten könnten. Aktuelle state-of-the-art Deep-Learning-Modelle zur Polypen-Segmentierung kombinieren die Ausgaben von Fully Convolutional Network (FCN)-Architekturen und Transformer-Architekturen, die parallel arbeiten. In diesem Paper stellen wir Modifikationen am aktuellen state-of-the-art-Modell FCBFormer vor. Die Transformer-Architektur des FCBFormer wird durch eine SwinV2 Transformer-UNET ersetzt, und kleinere Anpassungen an der Fully Convolutional Network-Architektur werden vorgenommen, um das FCB-SwinV2 Transformer-Modell zu erstellen. Die Leistungsfähigkeit des FCB-SwinV2 Transformer wird anhand der etablierten Benchmark-Datensätze für Koloskopie-Segmentierung, Kvasir-SEG und CVC-ClinicDB, evaluiert. Zudem werden Generalisierbarkeitstests durchgeführt. Das FCB-SwinV2 Transformer erreicht in allen durchgeführten Tests konsistent höhere mDice-Scores und stellt somit eine neue state-of-the-art-Leistung dar. Zudem werden Probleme aufgezeigt, die bei der Bewertung der Leistung von Koloskopie-Segmentierungsmodellen in der Literatur auftreten, und diskutiert. Ein besonders zentrales Problem ist, dass bei der Evaluation auf dem CVC-ClinicDB-Datensatz darauf geachtet werden sollte, dass während der Aufteilung in Trainings-, Validierungs- und Testdaten keine Datenlecks aus Videosequenzen auftreten.