Selbstüberwachtes Lernen für die Analyse endoskopischer Videos

Selbstüberwachtes Lernen (SSL) hat durch die Möglichkeit, aus großen Mengen an unbeschrifteten Daten zu lernen, bedeutende Durchbrüche in der Computer Vision ermöglicht. Aufgrund dieser Eigenschaft könnte es eine entscheidende Rolle in der Biomedizin spielen, wo die Annotation von Daten hochspezialisiertes Fachwissen erfordert. Dennoch wurden SSL-Methoden in vielen Bereichen der Gesundheitsversorgung bisher noch nicht umfassend erforscht. Ein solcher Bereich ist die Endoskopie, minimally invasive Eingriffe, die häufig zur Erkennung und Behandlung von Infektionen, chronisch entzündlichen Erkrankungen oder Krebs eingesetzt werden. In dieser Arbeit untersuchen wir die Anwendung eines führenden SSL-Frameworks, nämlich Masked Siamese Networks (MSNs), zur Analyse endoskopischer Videos, wie beispielsweise Koloskopien und Laparoskopien. Um das volle Potenzial von SSL auszuschöpfen, erstellen wir umfangreiche, unbeschriftete Datensätze endoskopischer Videos zur Schulung der MSNs. Diese starken Bildrepräsentationen bilden die Grundlage für eine nachgeschaltete Trainingsphase mit begrenzten beschrifteten Datensätzen und erzielen dabei state-of-the-art-Leistungen in endoskopischen Benchmarks, wie der Erkennung chirurgischer Phasen bei Laparoskopien oder der Charakterisierung von Polypen bei Koloskopien. Zudem erreichen wir eine Reduktion der benötigten Anzahl an annotierten Daten um 50 %, ohne die Leistung zu beeinträchtigen. Unser Werk liefert somit Belege dafür, dass SSL das Bedarf an annotierten Daten in der Endoskopie erheblich reduzieren kann.