HyperAIHyperAI
vor 2 Monaten

Video-Polyp-Segmentierung: Eine Tiefenlern-Perspektive

Ge-Peng Ji; Guobao Xiao; Yu-Cheng Chou; Deng-Ping Fan; Kai Zhao; Geng Chen; Luc Van Gool
Video-Polyp-Segmentierung: Eine Tiefenlern-Perspektive
Abstract

Wir präsentieren die erste umfassende Studie zur Video-Polyp-Segmentierung (VPS) im Zeitalter des tiefen Lernens. Über die Jahre hinweg sind die Fortschritte bei der VPS aufgrund des Mangels an groß angelegten, feingranularen Segmentierungsannotations nicht ohne Schwierigkeiten vorangekommen. Um dieses Problem anzugehen, führen wir zunächst eine hochwertige, bildweise annotierte VPS-Datensammlung ein, die unter dem Namen SUN-SEG bekannt ist und 158.690 Koloskopiebilder aus der bekannten SUN-Datenbank enthält. Wir stellen zusätzliche Annotationen mit verschiedenen Arten bereit, nämlich Attribut-, Objektmaske-, Rand-, Kritzeleien- und Polygonannotationen. Zweitens entwerfen wir eine einfache, aber effiziente Baseline, bezeichnet als PNS+, welche aus einem globalen Encoder, einem lokalen Encoder und normalisierten Selbst-Aufmerksamkeitsblöcken (NS) besteht. Der globale und lokale Encoder erhalten ein Ankerbild sowie mehrere aufeinanderfolgende Bilder, um langfristige und kurzfristige räumlich-zeitliche Repräsentationen zu extrahieren, die dann durch zwei NS-Blöcke schrittweise aktualisiert werden. Ausführliche Experimente zeigen, dass PNS+ die beste Leistung und Echtzeit-Inferenzgeschwindigkeit (170 fps) erzielt, was es zu einer vielversprechenden Lösung für die VPS-Aufgabe macht. Drittens bewerten wir 13 repräsentative Polyp-/Objektsegmentierungsmodelle anhand unseres SUN-SEG-Datensatzes und liefern attributbasierte Vergleiche. Schließlich diskutieren wir mehrere offene Fragen und schlagen mögliche Forschungsrichtungen für die VPS-Gemeinschaft vor.

Video-Polyp-Segmentierung: Eine Tiefenlern-Perspektive | Neueste Forschungsarbeiten | HyperAI