HyperAIHyperAI
il y a 2 mois

Reconnaissance du Triplet Chirurgical par Modèle de Diffusion

Liu, Daochang ; Hu, Axel ; Shah, Mubarak ; Xu, Chang
Reconnaissance du Triplet Chirurgical par Modèle de Diffusion
Résumé

La reconnaissance de triplets chirurgicaux est un élément fondamental pour permettre la création de salles d'opération contextuellement conscientes de nouvelle génération. L'objectif est d'identifier les combinaisons d'instruments, de verbes et de cibles présentées dans les images des vidéos chirurgicales. Dans cet article, nous proposons DiffTriplet, un nouveau cadre génératif pour la reconnaissance de triplets chirurgicaux utilisant le modèle de diffusion, qui prédit les triplets chirurgicaux par débruitage itératif. Pour relever le défi de l'association des triplets, deux conceptions uniques sont proposées dans notre cadre de diffusion : l'apprentissage d'association et la guidance d'association. Pendant l'entraînement, nous optimisons le modèle dans l'espace conjoint des triplets et des composants individuels afin de capturer leurs interdépendances. Lors de l'inférence, nous intégrons des contraintes d'association à chaque mise à jour du processus de débruitage itératif, ce qui affine la prédiction des triplets en utilisant les informations des composants individuels. Les expériences menées sur les jeux de données CholecT45 et CholecT50 montrent la supériorité de notre méthode pour atteindre une nouvelle performance state-of-the-art en reconnaissance de triplets chirurgicaux. Nos codes seront rendus disponibles.