Apprentissage de graphes relationnels sur des plongements visuels et cinématiques pour une reconnaissance précise des gestes en chirurgie robotique

La reconnaissance automatique des gestes chirurgicaux est fondamentalement importante pour permettre une assistance cognitive intelligente en chirurgie robotique. Grâce aux récentes avancées dans la chirurgie mini-invasive assistée par robot, des informations riches, notamment des vidéos chirurgicales et les cinématiques robotiques, peuvent être enregistrées, fournissant ainsi une connaissance complémentaire pour comprendre les gestes chirurgicaux. Cependant, les méthodes existantes utilisent soit uniquement des données unimodales, soit concatènent directement des représentations multimodales, ce qui ne permet pas d'exploiter pleinement les corrélations informatives inhérentes aux données visuelles et cinématiques pour améliorer la précision de la reconnaissance des gestes. À cet égard, nous proposons une nouvelle approche en ligne de réseau graphique relationnel multimodal (c'est-à-dire MRG-Net) pour intégrer dynamiquement les informations visuelles et cinématiques par le biais de la propagation de messages interactifs dans l'espace de caractéristiques latentes. Plus précisément, nous extrayons d'abord des plongements à partir de séquences vidéo et cinématiques à l'aide de réseaux convolutifs temporels et d'unités LSTM. Ensuite, nous identifions plusieurs relations au sein de ces plongements multimodaux et les exploitons grâce à un module d'apprentissage graphique relationnel hiérarchique. L'efficacité de notre méthode est démontrée par des résultats de pointe sur le jeu de données public JIGSAWS, surpassant les méthodes actuelles unimodales et multimodales tant pour la tâche de sutures que pour celle de nouage. De plus, nous avons validé notre méthode sur des jeux de données visuels-cinématiques internes collectés avec des plateformes du kit de recherche da Vinci (dVRK) dans deux centres, obtenant une performance prometteuse cohérente.