FCN-Transformer-Funktionssynthese für die Polypsegmentierung

Die Koloskopie gilt weithin als Goldstandard-Verfahren zur Früherkennung von Kolorektalkarzinomen (CRC). Die Segmentierung ist für zwei wesentliche klinische Anwendungen von großer Bedeutung, nämlich die Detektion und Klassifikation von Läsionen, da sie zur Verbesserung der Genauigkeit und Robustheit beiträgt. Die manuelle Segmentierung von Polypen in Koloskopiebildern ist zeitaufwendig. Daher ist die Anwendung von Deep Learning (DL) zur Automatisierung der Polypen-Segmentierung zunehmend wichtig geworden. Allerdings können DL-basierte Ansätze anfällig für Overfitting sein und sind daher möglicherweise nicht in der Lage, auf Bilder zu generalisieren, die mit unterschiedlichen Koloskopen aufgenommen wurden. Rekentechnisch basierte Architekturen für die semantische Segmentierung erreichen sowohl eine höhere Leistung als auch eine bessere Generalisierbarkeit im Vergleich zu alternativen Ansätzen. Typischerweise generieren sie jedoch eine Segmentierungskarte mit den räumlichen Abmessungen $\frac{h}{4}\times\frac{w}{4}$ für eine Eingabebildgröße von $h\times w$. Um dies zu adressieren, schlagen wir eine neue Architektur für die Vollgrößen-Segmentierung vor, die die Stärken eines Transformers nutzt, um in einem primären Zweig die für die Segmentierung relevantesten Merkmale zu extrahieren, während ein sekundärer, vollständig convolutionaler Zweig die Einschränkungen des Transformers bei der Vorhersage von Vollgrößen-Segmentierungskarten kompensiert. Die aus beiden Zweigen resultierenden Merkmale werden anschließend gefusst, um schließlich eine Segmentierungskarte der Ausgangsgröße $h\times w$ vorherzusagen. Wir demonstrieren die state-of-the-art-Leistung unseres Verfahrens hinsichtlich der Metriken mDice, mIoU, mPrecision und mRecall anhand der Benchmark-Datensätze Kvasir-SEG und CVC-ClinicDB. Zudem trainieren wir das Modell jeweils auf einem der beiden Datensätze und evaluieren es auf dem anderen, um die überlegene Generalisierbarkeit unseres Ansatzes zu belegen.