Relationales Graphenlernen auf visuellen und kinematischen Einbettungen für genaue Gestenerkennung in der Robotikchirurgie

Die automatische Erkennung chirurgischer Gesten ist grundlegend wichtig, um intelligente kognitive Unterstützung bei robotergestützten Operationen zu ermöglichen. Mit den jüngsten Fortschritten im Bereich der roboterassistierten minimalinvasiven Chirurgie können reichhaltige Informationen, einschließlich operativer Videos und Roboterkinematik, aufgezeichnet werden, die ergänzendes Wissen für das Verständnis chirurgischer Gesten liefern. Bestehende Methoden verwenden jedoch entweder ausschließlich unimodale Daten oder fügen multimodale Darstellungen direkt zusammen, was die informierenden Korrelationen in visuellen und kinematischen Daten nicht ausreichend nutzt, um die Genauigkeit der Gestenerkennung zu verbessern. In diesem Zusammenhang schlagen wir einen neuen Online-Ansatz eines multimodal vernetzten Graphennetzes (Multi-Modal Relational Graph Network, kurz MRG-Net) vor, um visuelle und kinematische Informationen durch interaktive Nachrichtenausbreitung im latenten Merkmalsraum dynamisch zu integrieren. Im Speziellen extrahieren wir zunächst Einbettungen aus Video- und Kinematiksequenzen mit zeitlichen Faltungsnetzen und LSTM-Einheiten. Anschließend identifizieren wir mehrere Beziehungen in diesen multimodalen Einbettungen und nutzen sie durch ein hierarchisches Modul zur relationalen Graphenlernen. Die Effektivität unserer Methode wird anhand erstklassiger Ergebnisse auf dem öffentlichen JIGSAWS-Datensatz demonstriert, wobei sie sowohl bei den Näh- als auch bei den Knotenlegungsaufgaben bestehende unimodale und multimodale Methoden übertrifft. Darüber hinainaußen haben wir unsere Methode an internen visuell-kinematischen Datensätzen validiert, die mit Plattformen des da Vinci Research Kit (dVRK) in zwei Zentren gesammelt wurden, wobei konsistent vielversprechende Leistungen erzielt wurden.