Schwach-überwachtes Lernen zur Werkzeuglokalisation in laparoskopischen Videos

Die Lokalisierung chirurgischer Instrumente ist eine wesentliche Aufgabe für die automatische Analyse von endoskopischen Videos. In der Literatur sind bestehende Methoden zur Instrumentlokalisierung, -verfolgung und -segmentierung auf vollständig annotierte Trainingsdaten angewiesen, was die Größe der verwendbaren Datensätze und die Generalisierbarkeit der Ansätze einschränkt. In dieser Arbeit schlagen wir vor, den Mangel an annotierten Daten durch schwache Überwachung zu umgehen. Wir präsentieren eine tiefere Architektur, die ausschließlich auf bildbasierten Annotationen trainiert wird und sowohl für die Erkennung als auch für die Lokalisierung von chirurgischen Instrumenten in endoskopischen Videos verwendet werden kann. Unsere Architektur basiert auf einem voll konvolutionellen neuronalen Netzwerk, das von Anfang bis Ende trainiert wird, wodurch es uns ermöglicht, chirurgische Instrumente ohne explizite räumliche Annotationen zu lokalisieren. Wir zeigen die Vorteile unseres Ansatzes anhand eines großen öffentlichen Datensatzes, Cholec80, der vollständig mit binären Informationen über das Vorhandensein von Instrumenten annotiert ist. Fünf Videos dieses Datensatzes wurden zusätzlich für die Bewertung vollständig mit Begrenzungsrahmen und Instrumentmittelpunkten annotiert.