HyperAIHyperAI

Command Palette

Search for a command to run...

MM-OR: Ein großes multimodales Operationsraum-Dataset für die semantische Verständnis hochintensiver chirurgischer Umgebungen

Zusammenfassung

Operationssäle (ORs) sind komplexe, hochriskante Umgebungen, die ein präzises Verständnis der Interaktionen zwischen medizinischem Personal, Instrumenten und Geräten erfordern, um chirurgische Assistenz, situative Wahrnehmung und Patientensicherheit zu verbessern. Aktuelle Datensätze bleiben hinsichtlich Umfang, Realitätsnähe und der Erfassung der multimodalen Natur von OR-Szenen hinter den Anforderungen zurück, was den Fortschritt in der Modellierung von Operationssälen einschränkt. Hierzu stellen wir MM-OR vor – einen realistischen, großskaligen multimodalen spatiotemporalen Datensatz für Operationssäle – und den ersten Datensatz, der die Generierung multimodaler Szenengraphen ermöglicht. MM-OR erfasst umfassende OR-Szenen mit RGB-D-Daten, Detailaufnahmen, Audio, Sprachtranskripten, Roboterprotokollen sowie Tracking-Daten und ist mit Panoptic-Segmentierungen, semantischen Szenengraphen und Aufgabenbezogenen Labels annotiert. Darüber hinaus präsentieren wir MM2SG, das erste multimodale große Vision-Language-Modell zur Szenengraphgenerierung, und zeigen in umfangreichen Experimenten dessen Fähigkeit, multimodale Eingaben effektiv zu nutzen. Zusammen bilden MM-OR und MM2SG eine neue Benchmark für die ganzheitliche Verständnis von Operationssälen und eröffnen den Weg für die multimodale Szenenanalyse in komplexen, hochriskanten Umgebungen. Unser Code und die Daten sind unter https://github.com/egeozsoy/MM-OR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MM-OR: Ein großes multimodales Operationsraum-Dataset für die semantische Verständnis hochintensiver chirurgischer Umgebungen | Paper | HyperAI