HyperAIHyperAI
vor 11 Tagen

SF-TMN: SlowFast zeitliche Modellierungsnetzwerk für die Erkennung chirurgischer Phasen

Bokai Zhang, Mohammad Hasan Sarhan, Bharti Goel, Svetlana Petculescu, Amer Ghanem
SF-TMN: SlowFast zeitliche Modellierungsnetzwerk für die Erkennung chirurgischer Phasen
Abstract

Die automatische Erkennung chirurgischer Phasen ist eine der zentralen Technologien zur Unterstützung von video-basierten Bewertungssystemen (Video-Based Assessment, VBA) im Bereich der chirurgischen Ausbildung. Die Nutzung zeitlicher Informationen ist entscheidend für die Erkennung chirurgischer Phasen; daher extrahieren verschiedene neuere Ansätze frame-basierte Merkmale, um eine vollständige zeitliche Modellierung des gesamten Videos durchzuführen. Um eine verbesserte zeitliche Modellierung zu erreichen, schlagen wir das SlowFast Temporal Modeling Network (SF-TMN) für die Erkennung chirurgischer Phasen vor, das nicht nur eine frame-basierte vollständige zeitliche Modellierung des gesamten Videos ermöglicht, sondern auch eine segment-basierte vollständige zeitliche Modellierung. Wir verwenden ein Merkmalsextraktionsnetzwerk, das auf dem Ziel-Datensatz vortrainiert wurde, um Merkmale aus Videoframes zu extrahieren, die als Trainingsdaten für SF-TMN dienen. Der „Slow Path“ in SF-TMN nutzt alle frame-basierten Merkmale zur frame-basierten zeitlichen Modellierung. Der „Fast Path“ in SF-TMN nutzt segment-basierte Merkmale, die aus den frame-basierten Merkmalen zusammengefasst werden, zur segment-basierten zeitlichen Modellierung. Das vorgeschlagene Paradigma ist flexibel hinsichtlich der Wahl der zeitlichen Modellierungsnetzwerke. Wir untersuchen MS-TCN- und ASFormer-Modelle als zeitliche Modellierungsnetzwerke und testen mehrere Kombinationsstrategien für den Slow- und Fast Path. Wir evaluieren SF-TMN anhand der Cholec80-Aufgabe zur Erkennung chirurgischer Phasen und zeigen, dass SF-TMN auf allen betrachteten Metriken Ergebnisse auf State-of-the-Art-Niveau erzielt. SF-TMN mit ASFormer-Backbone erreicht eine Genauigkeit, die um 2,6 Prozentpunkte und einen Jaccard-Score, der um 7,4 Prozentpunkte höher liegt, als der aktuell beste nicht-end-to-end (TCN)-Ansatz. Zudem evaluieren wir SF-TMN anhand von Action-Segmentation-Datensätzen wie 50salads, GTEA und Breakfast und erzielen ebenfalls State-of-the-Art-Ergebnisse. Die Verbesserung der Ergebnisse zeigt, dass die Kombination zeitlicher Informationen sowohl auf frame- als auch auf segment-basiertem Niveau – insbesondere durch die Verfeinerung der Ausgaben mittels zeitlicher Refinementschritte – vorteilhaft für die zeitliche Modellierung chirurgischer Phasen ist.

SF-TMN: SlowFast zeitliche Modellierungsnetzwerk für die Erkennung chirurgischer Phasen | Neueste Forschungsarbeiten | HyperAI