HyperAIHyperAI
il y a 2 mois

Reconnaissance des interactions instrument-tissu dans les vidéos endoscopiques par le biais de triplets d'actions

Nwoye, Chinedu Innocent ; Gonzalez, Cristians ; Yu, Tong ; Mascagni, Pietro ; Mutter, Didier ; Marescaux, Jacques ; Padoy, Nicolas
Reconnaissance des interactions instrument-tissu dans les vidéos endoscopiques par le biais de triplets d'actions
Résumé

La reconnaissance des activités chirurgicales est un élément essentiel pour développer un soutien décisionnel contextuel dans la salle d'opération. Dans cette étude, nous abordons la reconnaissance d'activités à grain fin, modélisées sous forme de triplets d'action représentant l'activité de l'outil. À cet effet, nous introduisons un nouveau jeu de données laparoscopiques, CholecT40, composé de 40 vidéos issues du jeu de données public Cholec80, où tous les cadres ont été annotés avec 128 classes de triplets. De plus, nous présentons une approche permettant de reconnaître ces triplets directement à partir des données vidéo. Cette approche repose sur un module appelé Guide d'Activation de Classe (CAG), qui utilise les cartes d'activation des instruments pour guider la reconnaissance du verbe et de la cible. Pour modéliser la reconnaissance de plusieurs triplets dans le même cadre, nous proposons également un espace d'interaction 3D entraînable, qui capture les associations entre les composants des triplets. Enfin, nous démontrons l'importance de ces contributions par le biais de plusieurs études par élimination et de comparaisons avec des méthodes de référence sur CholecT40.