GMSRF-Net: Ein verbessertes Generalisierungsvermögen durch ein Netzwerk mit globaler mehrskaliger Restfusionsstruktur für die Polypensegmentierung

Die Koloskopie gilt als Goldstandard-Verfahren, ist jedoch stark vom Untersucher abhängig. Um die Rate verpasster Polypen – präkanzeröse Vorstufen – effektiv zu minimieren, wurden erhebliche Anstrengungen unternommen, die Erkennung und Segmentierung von Polypen zu automatisieren. Weit verbreitete computerunterstützte Systeme zur Polypen-Segmentierung, die auf Encoder-Decoder-Architekturen basieren, haben hervorragende Genauigkeitswerte erzielt. Allerdings können Polypen-Segmentierungs-Datensätze, die aus verschiedenen Zentren stammen, unterschiedliche Bildgebungsprotokolle aufweisen, was zu einer Varianz der Datenaufteilung führt. Folglich leiden die meisten Methoden unter Leistungseinbußen und erfordern für jedes spezifische Datenset eine erneute Schulung. Um dieses Problem der Generalisierbarkeit anzugehen, schlagen wir einen globalen, mehrskaligen Residual-Fusions-Netzwerkansatz (GMSRF-Net) vor. Unser vorgeschlagenes Netzwerk bewahrt hochauflösende Darstellungen und führt gleichzeitig mehrskalige Fusionsoperationen für alle Auflösungsstufen durch. Um die Skaleninformationen noch effektiver auszunutzen, integrieren wir innerhalb des GMSRF-Netzwerks speziell entwickelte Module für die Kreuz-Mehrskalen-Attention (CMSA) und die Mehrskalen-Feature-Auswahl (MSFS). Die wiederholten Fusionsoperationen, die durch CMSA und MSFS gelenkt werden, zeigen eine verbesserte Generalisierbarkeit des Netzwerks. Experimente an zwei unterschiedlichen Datensätzen zur Polypen-Segmentierung ergeben, dass unser vorgeschlagenes GMSRF-Net die bisher beste state-of-the-art-Methode um 8,34 % und 10,31 % in Bezug auf den Dice-Koeffizienten bei bisher nicht gesehenen Datensätzen (CVC-ClinicDB und Kvasir-SEG) übertrifft.