4D-OR: Semantische Szenengraphen zur Modellierung des OR-Bereichs

Chirurgische Eingriffe finden in hochkomplexen Operationssälen (OR) statt, die verschiedene Akteure, Geräte und Interaktionen umfassen. Bisher sind ausschließlich medizinisch ausgebildete menschliche Experten in der Lage, alle Zusammenhänge und Wechselwirkungen in dieser anspruchsvollen Umgebung zu verstehen. Ziel dieses Beitrags ist es, der Forschungsgemeinschaft einen Schritt näher an eine automatisierte, ganzheitliche und semantische Verständnis- und Modellierung des OR-Bereichs zu bringen. Dazu schlagen wir erstmals die Verwendung von semantischen Szenengraphen (SSG) vor, um die chirurgische Szene zu beschreiben und zu summarisieren. Die Knoten der Szenengraphen repräsentieren verschiedene Akteure und Objekte im Raum, wie medizinisches Personal, Patienten und medizinische Geräte, während die Kanten die Beziehungen zwischen ihnen darstellen. Um die Möglichkeiten der vorgeschlagenen Darstellung zu validieren, erstellen wir erstmals einen öffentlich verfügbaren 4D-spezifischen SSG-Datensatz für Operationssäle, den 4D-OR, der zehn simulierte Gesamtknieersatzoperationen enthält, die in einer realistischen OR-Simulationszentrum mit sechs RGB-D-Sensoren aufgezeichnet wurden. Der 4D-OR-Datensatz umfasst 6734 Frames und ist reichhaltig mit SSGs, menschlichen und objektiven Pose-Daten sowie klinischen Rollen annotiert. Wir stellen einen end-to-end neural network-basierten SSG-Generierungs-Pipeline vor, die eine Erfolgsrate von 0,75 im makro-F1-Maß erreicht und tatsächlich semantisches Schließen im OR ermöglicht. Wir demonstrieren zudem die Darstellungskraft unserer Szenengraphen anhand des Problems der klinischen Rollen-Vorhersage, bei der wir eine makro-F1-Score von 0,85 erzielen. Der Quellcode und der Datensatz werden nach Annahme des Beitrags öffentlich verfügbar gemacht.