Echtzeit-Erkennung, Lokalisierung und Segmentierung von Polypen bei Koloskopie mittels Tiefenlernen

Computergestützte Detektions-, Lokalisierungs- und Segmentierungsmethoden können dazu beitragen, Koloskopieverfahren zu verbessern. Obwohl bereits viele Methoden entwickelt wurden, um die automatische Detektion und Segmentierung von Polypen zu bewältigen, bleibt die Bewertung der neuesten Stand-der-Technik-Methoden ein offenes Problem. Dies ist auf die wachsende Anzahl von Computer Vision-Methoden zurückzuführen, die auf Polypendatensätze angewendet werden können. Die Bewertung neuer Methoden kann eine Richtung für die Entwicklung von automatisierten Polypendetektions- und Segmentierungsaufgaben geben. Darüber hinaus stellt sie sicher, dass die in der Gemeinschaft erzielten Ergebnisse reproduzierbar sind und einen fairen Vergleich der entwickelten Methoden ermöglichen. In dieser Arbeit bewerten wir mehrere aktuelle Stand-der-Technik-Methoden unter Verwendung des Kvasir-SEG-Datensatzes, einer freien Sammlung von Koloskopiebildern zur Detektion, Lokalisierung und Segmentierung von Polypen, sowohl in Bezug auf Genauigkeit als auch auf Geschwindigkeit. Während die meisten Methoden in der Literatur eine vergleichbare Leistung in Bezug auf Genauigkeit zeigen, demonstrieren wir, dass das vorgeschlagene ColonSegNet einen besseren Kompromiss zwischen einem durchschnittlichen Präzisionswert von 0,8000 und einem mittleren IoU (Intersection over Union) von 0,8100 sowie der schnellsten Geschwindigkeit von 180 Bildern pro Sekunde für die Detektions- und Lokalisierungsaufgabe erreicht hat. Ebenso erreichte das vorgeschlagene ColonSegNet einen wettbewerbsfähigen Dice-Koeffizienten von 0,8206 und die beste durchschnittliche Geschwindigkeit von 182,38 Bildern pro Sekunde für die Segmentieraufgabe. Unser umfassender Vergleich mit verschiedenen Stand-der-Technik-Methoden zeigt die Bedeutung der Bewertung tiefelernernder Methoden für automatisierte Echtzeit-Polypenerkennung und -abgrenzung, welche potentiell bestehende klinische Praktiken transformieren und Fehldetektionsraten minimieren können.