HyperAIHyperAI
vor 2 Monaten

Rendezvous: Aufmerksamkeitsmechanismen für die Erkennung von chirurgischen Aktionstripletten in endoskopischen Videos

Nwoye, Chinedu Innocent ; Yu, Tong ; Gonzalez, Cristians ; Seeliger, Barbara ; Mascagni, Pietro ; Mutter, Didier ; Marescaux, Jacques ; Padoy, Nicolas
Rendezvous: Aufmerksamkeitsmechanismen für die Erkennung von chirurgischen Aktionstripletten in endoskopischen Videos
Abstract

Unter allen existierenden Frameworks zur Analyse chirurgischer Workflows in endoskopischen Videos hebt sich die Aktionstriple-Erkennung als das einzige hervor, das truly feingranulare und umfassende Informationen zu chirurgischen Aktivitäten bereitstellt. Diese Informationen, präsentiert als Kombinationen von , sind äußerst schwierig, korrekt zu identifizieren. Die Komponenten der Triple können einzeln schwer zu erkennen sein; in dieser Aufgabe ist es nicht nur erforderlich, die Erkennung gleichzeitig für alle drei Komponenten durchzuführen, sondern auch die Datenassoziation zwischen ihnen korrekt herzustellen. Um diese Aufgabe zu bewältigen, stellen wir unser neues Modell vor: den Rendezvous (RDV), das Triple direkt aus chirurgischen Videos erkennt, indem es auf zwei verschiedenen Ebenen Aufmerksamkeit nutzt. Zunächst führen wir eine neue Form der räumlichen Aufmerksamkeit ein, um einzelne Aktionstriple-Komponenten in einer Szene zu erfassen; dies wird als Class Activation Guided Attention Mechanism (CAGAM) bezeichnet. Diese Technik konzentriert sich auf die Erkennung von Verben und Zielen unter Verwendung von Aktivierungen, die durch Instrumente entstehen. Um das Assoziationsproblem zu lösen, fügt unser RDV-Modell eine neue Form der semantischen Aufmerksamkeit hinzu, inspiriert von Transformer-Netzwerken; dies wird als Multi-Head of Mixed Attention (MHMA) bezeichnet. Diese Technik verwendet mehrere Kreuz- und Selbst-Aufmerksamkeiten, um effektiv Beziehungen zwischen Instrumenten, Verben und Zielen zu erfassen. Des Weiteren stellen wir CholecT50 vor – einen Datensatz mit 50 endoskopischen Videos, bei denen jedes Frame mit Labels aus 100 Trippelklassen annotiert wurde. Unser vorgeschlagenes RDV-Modell verbessert den mittleren AP-Wert der Trippelprediction um über 9 % im Vergleich zu den bislang besten Methoden in diesem Datensatz.Anmerkungen:- "truly fine-grained" wurde wörtlich übersetzt als "truly feingranulare", da es sich um einen spezifischen Begriff handelt.- "mean AP" wurde als "mittlerer AP-Wert" übersetzt, was im Kontext der Evaluation von Modellen üblich ist.- "Trippel" wurde anstelle von "Aktionstriple" verwendet, um Redundanz zu vermeiden.- Die Struktur des Satzes wurde angepasst, um eine natürliche Lesbarkeit im Deutschen sicherzustellen.