Min-Max-Similarität: Ein kontrastiver semi-supervisierter Deep-Learning-Netzwerk für die Segmentierung chirurgischer Instrumente

Ein häufiges Problem bei der Segmentierung medizinischer Bilder mittels neuronalen Netze ist die Schwierigkeit, eine ausreichend große Anzahl an pixelgenauen annotierten Daten für das Training zu beschaffen. Um dieses Problem anzugehen, schlagen wir ein semi-supervisedes Segmentierungsnetzwerk auf Basis von Contrastive Learning vor. Im Gegensatz zu vorherigen State-of-the-Art-Verfahren führen wir Min-Max-Similarity (MMS) ein, eine Form des Contrastive Learning im Rahmen eines Dual-View-Trainings, bei dem Klassifizierer und Projektoren verwendet werden, um jeweils alle-negativen sowie positive und negative Merkmalspaare zu konstruieren, um das Lernproblem als MMS-Problem zu formulieren. Die alle-negativen Paare dienen dazu, das Lernen der Netzwerke aus verschiedenen Perspektiven zu überwachen und allgemeine Merkmale zu erfassen, während die Konsistenz der Vorhersagen für unmarkierte Daten mittels einer pixelbasierten Contrastive-Loss-Funktion zwischen positiven und negativen Paaren gemessen wird. Um unsere vorgeschlagene Methode quantitativ und qualitativ zu evaluieren, testen wir sie an vier öffentlichen Datensätzen zur Segmentierung chirurgischer Instrumente aus Endoskopie-Aufnahmen sowie an einem zusätzlichen Datensatz aus Cochleaimplantat-Chirurgie, den wir manuell annotiert haben. Die Ergebnisse zeigen, dass unser Ansatz konsistent sowohl gegenüber aktuellen semi-superviseden als auch vollständig überwachten Segmentierungsverfahren übertrifft. Zudem ist unser semi-supervisedes Segmentierungsverfahren in der Lage, unbekannte chirurgische Instrumente erfolgreich zu erkennen und präzise Vorhersagen zu liefern. Außerdem erreicht unsere MMS-Methode eine Inferenzgeschwindigkeit von etwa 40 Bildern pro Sekunde (fps) und eignet sich somit gut für die Echtzeit-Videosegmentierung.