Reconnaissance Pixel-par-Pixel pour la Compréhension Holistique des Scènes Chirurgicales

Ce papier présente le jeu de données GraSP (GraSP: Granular and Holistic Surgical Scene Understanding of Prostatectomies), une base de référence soigneusement conçue qui modélise la compréhension de la scène chirurgicale comme une hiérarchie de tâches complémentaires à différentes échelles de granularité. Notre approche englobe des tâches à long terme, telles que la reconnaissance des phases chirurgicales et des étapes, ainsi que des tâches à court terme, incluant la segmentation des instruments chirurgicaux et la détection des actions visuelles atomiques. Pour exploiter efficacement cette nouvelle base de référence, nous introduisons le modèle TAPIS (Transformers for Actions, Phases, Steps, and Instrument Segmentation), une architecture générale qui combine un extracteur de caractéristiques vidéo globales avec des propositions régionales localisées issues d’un modèle de segmentation des instruments, afin de traiter la multi-granularité inhérente à notre benchmark. À travers des expérimentations étendues sur notre propre benchmark ainsi que sur des benchmarks alternatifs, nous démontrons la polyvalence et les performances de pointe de TAPIS sur diverses tâches. Ce travail constitue une avancée fondamentale dans le domaine de la vision endoscopique, offrant un cadre novateur pour les recherches futures visant une compréhension holistique de la scène chirurgicale.