HyperAIHyperAI

Command Palette

Search for a command to run...

SF-TMN: SlowFast zeitliche Modellierungsnetzwerk für die Erkennung chirurgischer Phasen

Bokai Zhang Mohammad Hasan Sarhan Bharti Goel Svetlana Petculescu Amer Ghanem

Zusammenfassung

Die automatische Erkennung chirurgischer Phasen ist eine der zentralen Technologien zur Unterstützung von video-basierten Bewertungssystemen (Video-Based Assessment, VBA) im Bereich der chirurgischen Ausbildung. Die Nutzung zeitlicher Informationen ist entscheidend für die Erkennung chirurgischer Phasen; daher extrahieren verschiedene neuere Ansätze frame-basierte Merkmale, um eine vollständige zeitliche Modellierung des gesamten Videos durchzuführen. Um eine verbesserte zeitliche Modellierung zu erreichen, schlagen wir das SlowFast Temporal Modeling Network (SF-TMN) für die Erkennung chirurgischer Phasen vor, das nicht nur eine frame-basierte vollständige zeitliche Modellierung des gesamten Videos ermöglicht, sondern auch eine segment-basierte vollständige zeitliche Modellierung. Wir verwenden ein Merkmalsextraktionsnetzwerk, das auf dem Ziel-Datensatz vortrainiert wurde, um Merkmale aus Videoframes zu extrahieren, die als Trainingsdaten für SF-TMN dienen. Der „Slow Path“ in SF-TMN nutzt alle frame-basierten Merkmale zur frame-basierten zeitlichen Modellierung. Der „Fast Path“ in SF-TMN nutzt segment-basierte Merkmale, die aus den frame-basierten Merkmalen zusammengefasst werden, zur segment-basierten zeitlichen Modellierung. Das vorgeschlagene Paradigma ist flexibel hinsichtlich der Wahl der zeitlichen Modellierungsnetzwerke. Wir untersuchen MS-TCN- und ASFormer-Modelle als zeitliche Modellierungsnetzwerke und testen mehrere Kombinationsstrategien für den Slow- und Fast Path. Wir evaluieren SF-TMN anhand der Cholec80-Aufgabe zur Erkennung chirurgischer Phasen und zeigen, dass SF-TMN auf allen betrachteten Metriken Ergebnisse auf State-of-the-Art-Niveau erzielt. SF-TMN mit ASFormer-Backbone erreicht eine Genauigkeit, die um 2,6 Prozentpunkte und einen Jaccard-Score, der um 7,4 Prozentpunkte höher liegt, als der aktuell beste nicht-end-to-end (TCN)-Ansatz. Zudem evaluieren wir SF-TMN anhand von Action-Segmentation-Datensätzen wie 50salads, GTEA und Breakfast und erzielen ebenfalls State-of-the-Art-Ergebnisse. Die Verbesserung der Ergebnisse zeigt, dass die Kombination zeitlicher Informationen sowohl auf frame- als auch auf segment-basiertem Niveau – insbesondere durch die Verfeinerung der Ausgaben mittels zeitlicher Refinementschritte – vorteilhaft für die zeitliche Modellierung chirurgischer Phasen ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp