HyperAIHyperAI

Command Palette

Search for a command to run...

LoViT: Long Video Transformer für die Erkennung von chirurgischen Phasen

Yang Liu Maxence Boels Luis C. Garcia-Peraza-Herrera Tom Vercauteren Prokar Dasgupta Alejandro Granados Sébastien Ourselin

Zusammenfassung

Die Online-Erkennung chirurgischer Phasen spielt eine wichtige Rolle bei der Entwicklung kontextbasierter Werkzeuge, die die Leistung quantifizieren und den Ablauf chirurgischer Workflows überwachen können. Aktuelle Ansätze sind jedoch eingeschränkt, da sie räumliche Merkmalsextraktoren mit rahmengenauem Überwachungslernen trainieren, was zu fehlerhaften Vorhersagen führen kann, wenn ähnliche Frames in verschiedenen Phasen auftreten. Zudem fusionieren sie lokale und globale Merkmale aufgrund von Rechenressourcenbeschränkungen nur unzureichend, was die Analyse langer Videos, wie sie in chirurgischen Eingriffen üblich sind, beeinträchtigen kann.In dieser Arbeit stellen wir eine zweistufige Methode vor, genannt Long Video Transformer (LoViT), die kurz- und langfristige zeitliche Informationen fusioniert. Diese Methode kombiniert einen zeitlich reichen räumlichen Merkmalsextraktor und einen mehrskaligen zeitlichen Aggregator, bestehend aus zwei kaskadierten L-Trans Modulen basierend auf Selbst-Aufmerksamkeit (self-attention), gefolgt von einem G-Informer Modul basierend auf ProbSparse Selbst-Aufmerksamkeit zur Verarbeitung globaler zeitlicher Informationen. Der mehrskalige zeitliche Klassifikator kombiniert dann lokale und globale Merkmale und klassifiziert chirurgische Phasen unter Verwendung einer phasenübergangsorientierten Überwachung.Unser Ansatz übertrifft standesübliche Methoden konsequent auf den Datensätzen Cholec80 und AutoLaparo. Verglichen mit Trans-SVNet erreicht LoViT eine Verbesserung um 2,4 Prozentpunkte (pp) in der Videogenauigkeit auf Cholec80 und eine Verbesserung um 3,1 pp auf AutoLaparo. Darüber hinaus erreicht es eine Verbesserung um 5,3 pp im Jaccard-Index auf Phasenebene für AutoLaparo und eine Verbesserung um 1,55 pp für Cholec80. Unsere Ergebnisse zeigen die Effektivität unseres Ansatzes bei der Erreichung standesüblicher Leistungsfähigkeit der Erkennung chirurgischer Phasen in zwei Datensätzen mit unterschiedlichen chirurgischen Vorgehensweisen und zeitlichen Sequenzierungseigenschaften, wobei wir Mechanismen einführen, die mit langen Videos umgehen können.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LoViT: Long Video Transformer für die Erkennung von chirurgischen Phasen | Paper | HyperAI