LoViT: Long Video Transformer für die Erkennung von chirurgischen Phasen

Die Online-Erkennung chirurgischer Phasen spielt eine wichtige Rolle bei der Entwicklung kontextbasierter Werkzeuge, die die Leistung quantifizieren und den Ablauf chirurgischer Workflows überwachen können. Aktuelle Ansätze sind jedoch eingeschränkt, da sie räumliche Merkmalsextraktoren mit rahmengenauem Überwachungslernen trainieren, was zu fehlerhaften Vorhersagen führen kann, wenn ähnliche Frames in verschiedenen Phasen auftreten. Zudem fusionieren sie lokale und globale Merkmale aufgrund von Rechenressourcenbeschränkungen nur unzureichend, was die Analyse langer Videos, wie sie in chirurgischen Eingriffen üblich sind, beeinträchtigen kann.In dieser Arbeit stellen wir eine zweistufige Methode vor, genannt Long Video Transformer (LoViT), die kurz- und langfristige zeitliche Informationen fusioniert. Diese Methode kombiniert einen zeitlich reichen räumlichen Merkmalsextraktor und einen mehrskaligen zeitlichen Aggregator, bestehend aus zwei kaskadierten L-Trans Modulen basierend auf Selbst-Aufmerksamkeit (self-attention), gefolgt von einem G-Informer Modul basierend auf ProbSparse Selbst-Aufmerksamkeit zur Verarbeitung globaler zeitlicher Informationen. Der mehrskalige zeitliche Klassifikator kombiniert dann lokale und globale Merkmale und klassifiziert chirurgische Phasen unter Verwendung einer phasenübergangsorientierten Überwachung.Unser Ansatz übertrifft standesübliche Methoden konsequent auf den Datensätzen Cholec80 und AutoLaparo. Verglichen mit Trans-SVNet erreicht LoViT eine Verbesserung um 2,4 Prozentpunkte (pp) in der Videogenauigkeit auf Cholec80 und eine Verbesserung um 3,1 pp auf AutoLaparo. Darüber hinaus erreicht es eine Verbesserung um 5,3 pp im Jaccard-Index auf Phasenebene für AutoLaparo und eine Verbesserung um 1,55 pp für Cholec80. Unsere Ergebnisse zeigen die Effektivität unseres Ansatzes bei der Erreichung standesüblicher Leistungsfähigkeit der Erkennung chirurgischer Phasen in zwei Datensätzen mit unterschiedlichen chirurgischen Vorgehensweisen und zeitlichen Sequenzierungseigenschaften, wobei wir Mechanismen einführen, die mit langen Videos umgehen können.