HyperAIHyperAI
il y a 2 mois

Rendez-vous dans le temps : Une approche de fusion temporelle basée sur l'attention pour la reconnaissance de triplets chirurgicaux

Sharma, Saurav ; Nwoye, Chinedu Innocent ; Mutter, Didier ; Padoy, Nicolas
Rendez-vous dans le temps : Une approche de fusion temporelle basée sur l'attention pour la reconnaissance de triplets chirurgicaux
Résumé

L'une des récentes avancées dans le domaine de l'IA chirurgicale est la reconnaissance des activités chirurgicales sous forme de triplets (instrument, verbe, cible). Bien que cette approche fournisse des informations détaillées pour les interventions assistées par ordinateur, les méthodes actuelles de reconnaissance de triplets ne s'appuient que sur les caractéristiques d'un seul cadre. L'exploitation des indices temporels provenant des cadres antérieurs améliorerait la reconnaissance des triplets d'actions chirurgicales à partir de vidéos. Dans cet article, nous proposons Rendezvous in Time (RiT) - un modèle d'apprentissage profond qui étend le modèle de pointe Rendezvous avec une modélisation temporelle. En se concentrant davantage sur les verbes, notre RiT explore la connectivité entre les cadres actuels et passés pour apprendre des caractéristiques basées sur l'attention temporelle, visant à améliorer la reconnaissance des triplets. Nous validons notre proposition sur le jeu de données chirurgical complexe CholecT45, démontrant une meilleure reconnaissance du verbe et du triplet ainsi que d'autres interactions impliquant le verbe telles que (instrument, verbe). Les résultats qualitatifs montrent que RiT produit des prédictions plus fluides pour la plupart des instances de triplets comparativement aux méthodes de pointe. Nous présentons une nouvelle approche basée sur l'attention qui tire parti de la fusion temporelle des cadres vidéo pour modéliser l'évolution des actions chirurgicales et exploiter leurs avantages pour la reconnaissance des triplets chirurgicaux.