Rendez-vous : Mécanismes d'attention pour la reconnaissance de triplets d'actions chirurgicales dans les vidéos endoscopiques

Parmi tous les cadres existants pour l'analyse du flux opératoire dans les vidéos endoscopiques, la reconnaissance des triplets d'action se distingue comme étant le seul à viser à fournir des informations véritablement détaillées et complètes sur les activités chirurgicales. Ces informations, présentées sous forme de combinaisons , sont extrêmement difficiles à identifier avec précision. Les composants des triplets peuvent être difficiles à reconnaître individuellement ; cette tâche nécessite non seulement de réaliser simultanément la reconnaissance des trois composants du triplet, mais aussi d'établir correctement l'association de données entre eux. Pour accomplir cette tâche, nous introduisons notre nouveau modèle, le Rendezvous (RDV), qui reconnaît directement les triplets à partir des vidéos chirurgicales en utilisant l'attention à deux niveaux différents. Nous présentons tout d'abord une nouvelle forme d'attention spatiale pour capturer individuellement les composants des triplets d'action dans une scène : le Mécanisme d'Attention Guidée par l'Activation de Classe (CAGAM). Cette technique se concentre sur la reconnaissance des verbes et des cibles en utilisant les activations issues des instruments. Pour résoudre le problème d'association, notre modèle RDV ajoute une nouvelle forme d'attention sémantique inspirée par les réseaux Transformer : l'Attention Mixte Multi-Têtes (MHMA). Cette technique utilise plusieurs attentions croisées et auto-attentions pour capturer efficacement les relations entre instruments, verbes et cibles. Nous introduisons également CholecT50 - un ensemble de données comprenant 50 vidéos endoscopiques où chaque image a été annotée avec des étiquettes provenant de 100 classes de triplets. Notre modèle RDV proposé améliore considérablement la moyenne AP de prédiction des triplets de plus de 9 % par rapport aux méthodes les plus avancées actuelles sur cet ensemble de données.