Command Palette
Search for a command to run...
Zu einer umfassenden Verständnis der chirurgischen Szene
Zu einer umfassenden Verständnis der chirurgischen Szene
Natalia Valderrama extsuperscript1(✉) Paola Ruiz Puentes extsuperscript1* Isabela Hernández extsuperscript1* Nicolás Ayobi extsuperscript1 Mathilde Verlyck extsuperscript1 Jessica Santander extsuperscript2 Juan Caicedo extsuperscript2 Nicolás Fernández extsuperscript3,4 Pablo Arbeláez extsuperscript1(✉)
Zusammenfassung
Die meisten Benchmarks für die Untersuchung chirurgischer Eingriffe konzentrieren sich auf eine spezifische Herausforderung anstatt die inhärente Komplementarität zwischen verschiedenen Aufgaben zu nutzen. In dieser Arbeit stellen wir ein neues experimentelles Framework zur umfassenden Verständnis von chirurgischen Szenen vor. Zunächst führen wir den Datensatz für Phasen-, Schritt-, Instrument- und atomare visuelle Aktionserkennung (PSI-AVA) ein. PSI-AVA enthält Annotationen sowohl für langfristige (Phasenerkennung und Schritterkennung) als auch für kurzfristige Schlussfolgerungen (Instrumentenerkennung und neuartige atomare Aktionserkennung) in Videos von roboterassistierten radikalen Prostataoperationen. Zweitens präsentieren wir die Transformer für Aktionserkennung, Phasenerkennung, Instrumentenerkennung und Schritterkennung (TAPIR) als eine robuste Baseline für das Verständnis chirurgischer Szenen. TAPIR nutzt die mehrstufigen Annotationen unseres Datensatzes, indem es von der gelernten Darstellung bei der Instrumentenerkennung profitiert, um seine Klassifikationsfähigkeit zu verbessern. Unsere experimentellen Ergebnisse sowohl im PSI-AVA-Datensatz als auch in anderen öffentlich zugänglichen Datenbanken zeigen die Eignung unseres Frameworks, zukünftige Forschungen zum umfassenden Verständnis chirurgischer Szenen anzustoßen.