HyperAIHyperAI
vor 7 Tagen

MM-OR: Ein großes multimodales Operationsraum-Dataset für die semantische Verständnis hochintensiver chirurgischer Umgebungen

&#xd6, zsoy, Ege, Pellegrini, Chantal, Czempiel, Tobias, Tristram, Felix, Yuan, Kun, Bani-Harouni, David, Eck, Ulrich, Busam, Benjamin, Keicher, Matthias, Navab, Nassir
MM-OR: Ein großes multimodales Operationsraum-Dataset für die semantische Verständnis hochintensiver chirurgischer Umgebungen
Abstract

Operationssäle (ORs) sind komplexe, hochriskante Umgebungen, die ein präzises Verständnis der Interaktionen zwischen medizinischem Personal, Instrumenten und Geräten erfordern, um chirurgische Assistenz, situative Wahrnehmung und Patientensicherheit zu verbessern. Aktuelle Datensätze bleiben hinsichtlich Umfang, Realitätsnähe und der Erfassung der multimodalen Natur von OR-Szenen hinter den Anforderungen zurück, was den Fortschritt in der Modellierung von Operationssälen einschränkt. Hierzu stellen wir MM-OR vor – einen realistischen, großskaligen multimodalen spatiotemporalen Datensatz für Operationssäle – und den ersten Datensatz, der die Generierung multimodaler Szenengraphen ermöglicht. MM-OR erfasst umfassende OR-Szenen mit RGB-D-Daten, Detailaufnahmen, Audio, Sprachtranskripten, Roboterprotokollen sowie Tracking-Daten und ist mit Panoptic-Segmentierungen, semantischen Szenengraphen und Aufgabenbezogenen Labels annotiert. Darüber hinaus präsentieren wir MM2SG, das erste multimodale große Vision-Language-Modell zur Szenengraphgenerierung, und zeigen in umfangreichen Experimenten dessen Fähigkeit, multimodale Eingaben effektiv zu nutzen. Zusammen bilden MM-OR und MM2SG eine neue Benchmark für die ganzheitliche Verständnis von Operationssälen und eröffnen den Weg für die multimodale Szenenanalyse in komplexen, hochriskanten Umgebungen. Unser Code und die Daten sind unter https://github.com/egeozsoy/MM-OR verfügbar.

MM-OR: Ein großes multimodales Operationsraum-Dataset für die semantische Verständnis hochintensiver chirurgischer Umgebungen | Neueste Forschungsarbeiten | HyperAI