ORacle: Große visuelle-Sprach-Modelle für wissensgeleitete ganzheitliche OR-Domänenmodellierung

Jeden Tag werden weltweit zahlreiche Operationen durchgeführt, wobei jede in einem unterschiedlichen Umfeld im Operationssaal (OR) stattfindet, das sich nicht nur in seiner Ausstattung, sondern auch in Personal, Werkzeugen und Geräten unterscheidet. Diese inhärente Vielfalt stellt eine erhebliche Herausforderung für ein umfassendes Verständnis des OR dar, da Modelle über ihre ursprünglichen Trainingsdatensätze hinaus generalisieren müssen. Um diese Lücke zu schließen, stellen wir ORacle vor – ein fortschrittliches Vision-Sprache-Modell für eine ganzheitliche Modellierung des OR-Umfelds, das über Multi-View- und zeitliche Fähigkeiten verfügt und während der Inferenz externes Wissen nutzen kann, wodurch es sich an bisher unbekannte chirurgische Szenarien anpassen lässt. Diese Anpassungsfähigkeit wird durch unseren neuartigen Daten-Augmentierungs-Framework weiter verstärkt, das die Trainingsdaten erheblich diversifiziert und sicherstellt, dass ORacle das bereitgestellte Wissen effektiv einsetzen kann. In strengen Tests zeigt ORacle nicht nur Spitzenleistungen bei der Generierung von Szenengraphen und auf nachgeschalteten Aufgaben am 4D-OR-Datensatz, sondern erreicht dies mit weniger Daten als bestehende Modelle. Darüber hinaus demonstriert es seine Anpassungsfähigkeit durch die Fähigkeit, bisher unbekannte Perspektiven, Aktionen sowie Erscheinungsformen von Instrumenten und Geräten zu interpretieren. Dies unterstreicht das Potenzial von ORacle, die Skalierbarkeit und Kosteneffizienz der Modellierung des OR-Umfelds erheblich zu steigern und einen Weg für zukünftige Fortschritte in der chirurgischen Datenwissenschaft zu ebnen. Wir werden unseren Code und die Daten nach Annahme veröffentlichen.