Pixelweise Erkennung für eine ganzheitliche Verständnis chirurgischer Szenen

Diese Arbeit präsentiert den Holistic and Multi-Granular Surgical Scene Understanding of Prostatectomies (GraSP)-Datensatz, ein sorgfältig zusammengestelltes Benchmark-Dataset, das das Verständnis chirurgischer Szenen als Hierarchie komplementärer Aufgaben mit unterschiedlichen Granularitätsstufen modelliert. Unser Ansatz umfasst langfristige Aufgaben, wie die Erkennung chirurgischer Phasen und Schritte, sowie kurzfristige Aufgaben, darunter die Segmentierung chirurgischer Instrumente und die Detektion atomarer visueller Aktionen. Um das vorgeschlagene Benchmark-Dataset optimal auszunutzen, führen wir das Transformers for Actions, Phases, Steps, and Instrument Segmentation (TAPIS)-Modell ein, eine allgemeine Architektur, die einen globalen Videofeature-Extractor mit lokalisierten Regionen-Vorschlägen aus einem Instrument-Segmentierungsmodell kombiniert, um die Multigranularität des Benchmarks zu bewältigen. Durch umfangreiche Experimente sowohl an unserem als auch an alternativen Benchmarks zeigen wir die Vielseitigkeit und den state-of-the-art-Performance von TAPIS bei verschiedenen Aufgaben. Diese Arbeit stellt einen grundlegenden Fortschritt im Bereich der endoskopischen Vision dar und bietet einen innovativen Rahmen für zukünftige Forschung im Bereich des umfassenden Verständnisses chirurgischer Szenen.