Die Zerlegung von selbstüberwachten Lernmethoden für die chirurgische Computer Vision

Das Gebiet der chirurgischen Computer Vision hat in den letzten Jahren dank der wachsenden Beliebtheit von tiefen neuronalen Netzwerken erhebliche Fortschritte gemacht. Allerdings erfordern die üblichen vollständig überwachten Ansätze zur Schulung solcher Modelle enorme Mengen an annotierten Daten, was insbesondere im klinischen Bereich unannehmbar hohe Kosten verursacht. Selbstüberwachte Lernmethoden (Self-Supervised Learning, SSL), die in der allgemeinen Computer-Vision-Gemeinschaft zunehmend an Bedeutung gewinnen, stellen eine potentielle Lösung für diese Annotierungskosten dar und ermöglichen das Erlernen nützlicher Repräsentationen aus nur nicht annotierten Daten. Dennoch bleiben die Effektivität von SSL-Methoden in komplexeren und bedeutsameren Bereichen wie Medizin und Chirurgie begrenzt und unerforscht. In dieser Arbeit adressieren wir dieses wichtige Anliegen, indem wir vier standesübliche SSL-Methoden (MoCo v2, SimCLR, DINO, SwAV) im Kontext der chirurgischen Computer Vision untersuchen. Wir präsentieren eine umfangreiche Analyse der Leistung dieser Methoden auf dem Cholec80-Datensatz für zwei grundlegende und beliebte Aufgaben im Verständnis des chirurgischen Kontexts: Phasenerkennung und Werkzeugpräsenzerkennung. Wir untersuchen ihre Parametrisierung sowie ihr Verhalten hinsichtlich der Menge an Trainingsdaten in halbüberwachten Szenarien. Die korrekte Übertragung dieser Methoden auf die Chirurgie, wie sie in dieser Arbeit beschrieben und durchgeführt wird, führt zu erheblichen Leistungssteigerungen gegenüber generellen Anwendungen von SSL – bis zu 7,4 % bei der Phasenerkennung und 20 % bei der Werkzeugpräsenzerkennung – sowie zu den standesüblichen halbüberwachten Phasenerkennungsansätzen um bis zu 14 %. Weitere Ergebnisse, die auf einer hoch diversifizierten Auswahl chirurgischer Datensätze erhalten wurden, zeigen starke Generalisierungseigenschaften. Der Code ist unter https://github.com/CAMMA-public/SelfSupSurg verfügbar.