HyperAIHyperAI
vor 2 Monaten

Mehrfach-Aufgaben-Rekurrente-Faltungsnetzwerk mit Korrelationsverlust für die Analyse von operativen Videos

Yueming Jin; Huaxia Li; Qi Dou; Hao Chen; Jing Qin; Chi-Wing Fu; Pheng-Ann Heng
Mehrfach-Aufgaben-Rekurrente-Faltungsnetzwerk mit Korrelationsverlust für die Analyse von operativen Videos
Abstract

Die Erkennung von chirurgischen Instrumenten und die Identifizierung chirurgischer Phasen sind zwei grundlegende, jedoch herausfordernde Aufgaben bei der Analyse von chirurgischen Videos und stellen zudem sehr wichtige Komponenten für verschiedene Anwendungen in modernen Operationssälen dar. Obwohl diese beiden Analyseaufgaben im klinischen Alltag stark korreliert sind, da der chirurgische Prozess gut definiert ist, haben die meisten bisherigen Methoden sie getrennt angegangen, ohne ihre Verwandtschaft vollständig zu nutzen. In dieser Arbeit präsentieren wir eine neuartige Methode durch die Entwicklung eines mehrfach aufgabenbasierten rekurrenten Faltungsnetzes mit Korrelationsverlust (MTRCNet-CL), um ihre Verwandtschaft auszunutzen und gleichzeitig die Leistungsfähigkeit beider Aufgaben zu steigern. Insbesondere verfügt unser vorgeschlagenes MTRCNet-CL-Modell über eine end-to-end-Architektur mit zwei Zweigen, die frühere Feature-Encoder teilen, um allgemeine visuelle Merkmale zu extrahieren, während sie jeweils spezifischere Schichten für bestimmte Aufgaben aufweisen. Da zeitliche Informationen für die Phasenerkennung entscheidend sind, wird ein Long-Short-Term-Memory (LSTM)-Netzwerk verwendet, um die sequentiellen Abhängigkeiten im Zweig der Phasenerkennung zu modellieren. Noch wichtiger ist, dass ein neuartiger und effektiver Korrelationsverlust entwickelt wurde, um die Beziehung zwischen dem Vorhandensein von Instrumenten und der Phasenidentifikation jedes Video-Frames zu modellieren, indem die Divergenz der Vorhersagen aus den beiden Zweigen minimiert wird. Durch gegenseitiges Nutzen sowohl des Teilen niedriger Merkmalsrepräsentationen als auch der Korrelation hochstufiger Vorhersagen kann unsere MTRCNet-CL-Methode die Interaktionen zwischen den beiden Aufgaben erheblich fördern und somit gegenseitige Vorteile schaffen. Ausführliche Experimente an einem großen Datensatz chirurgischer Videos (Cholec80) zeigen hervorragende Leistungen unserer vorgeschlagenen Methode, welche konsistent weit über den Stand der Technik hinausgeht (z.B., 89,1 % gegenüber 81,0 % für das mAP in der Erkennung des Vorhandenseins von Instrumenten und 87,4 % gegenüber 84,5 % für den F1-Score in der Phasenerkennung). Der Code ist auf unserer Projektwebsite verfügbar.

Mehrfach-Aufgaben-Rekurrente-Faltungsnetzwerk mit Korrelationsverlust für die Analyse von operativen Videos | Neueste Forschungsarbeiten | HyperAI