Schwach überwachsene Convolutional LSTM-Ansatz für das Werkzeugverfolgen in Laparoskopie-Videos

Ziel: Die Echtzeit-Verfolgung von chirurgischen Instrumenten ist ein zentrales Element des zukünftigen intelligenten Operationssaals (OR), da sie für die Analyse und das Verständnis der chirurgischen Aktivitäten hochinstrumental ist. Aktuelle Methoden zur Verfolgung von chirurgischen Instrumenten in Videos müssen auf Daten trainiert werden, in denen die räumlichen Positionen der Instrumente manuell annotiert sind. Die Erstellung solcher Trainingsdaten ist schwierig und zeitaufwendig. Stattdessen schlagen wir vor, ausschließlich binäre Anwesenheitsannotierungen zu verwenden, um einen Instrumentverfolger für laparoskopische Videos zu trainieren.Methoden: Der vorgeschlagene Ansatz besteht aus einem CNN + Faltungs-LSTM (ConvLSTM)-Neuralnetz, das end-to-end trainiert wird, jedoch nur schwach überwacht mit binären Anwesenheitslabels der Instrumente. Wir nutzen das ConvLSTM, um die zeitlichen Abhängigkeiten in der Bewegung der chirurgischen Instrumente zu modellieren, und nutzen dessen raum-zeitliche Fähigkeit, um die Klassenaktivierungsspitzen in den Lokalisationswärmebildern (Lh-Bildern) zu glätten.Ergebnisse: Wir haben einen Baseline-Verfolger auf Basis des CNN-Modells entwickelt und zeigen, dass unser Ansatz mit dem ConvLSTM bei der Detektion der Anwesenheit von Instrumenten, der räumlichen Lokalisierung und der Bewegungsverfolgung um mehr als 5,0 %, 13,9 % und 12,6 % besser abschneidet.Schlussfolgerungen: In dieser Arbeit demonstrieren wir, dass binäre Anwesenheitslabels ausreichend sind, um ein tiefes Lernalgorithmus-Modell zur Verfolgung von Instrumenten mit unserer vorgeschlagenen Methode zu trainieren. Zudem zeigen wir, dass das ConvLSTM die raum-zeitliche Kohärenz aufeinanderfolgender Bildframes innerhalb eines chirurgischen Videos nutzen kann, um die Detektion der Anwesenheit von Instrumenten, ihre räumliche Lokalisierung und ihre Bewegungsverfolgung zu verbessern.Schlüsselwörter: Chirurgischer Workflowanalyse, Instrumentverfolgung, schwache Überwachung (weak supervision), raum-zeitliche Kohärenz (spatio-temporal coherence), ConvLSTM, endoskopische Videos