Vers une compréhension holistique de la scène chirurgicale

La plupart des référentiels utilisés pour l'étude des interventions chirurgicales se concentrent sur un défi spécifique plutôt que d'exploiter la complémentarité intrinsèque entre différentes tâches. Dans ce travail, nous présentons un nouveau cadre expérimental visant à une compréhension holistique de la scène chirurgicale. Premièrement, nous introduisons le jeu de données Phase, Step, Instrument, et Atomic Visual Action recognition (PSI-AVA). Le PSI-AVA comprend des annotations pour les raisonnements à long terme (reconnaissance des phases et des étapes) ainsi que pour les raisonnements à court terme (détection des instruments et reconnaissance d'actions atomiques nouvelles) dans des vidéos d'interventions robot-assistées de prostatectomie radicale. Deuxièmement, nous présentons les Transformers pour Action, Phase, Instrument, et Steps Recognition (TAPIR) comme une base solide pour la compréhension de la scène chirurgicale. Le TAPIR tire parti des annotations multinationales de notre jeu de données en bénéficiant de la représentation apprise lors de la détection des instruments pour améliorer sa capacité de classification. Nos résultats expérimentaux sur le PSI-AVA ainsi que sur d'autres bases de données publiquement disponibles montrent l'adéquation de notre cadre à stimuler les futures recherches sur une compréhension holistique de la scène chirurgicale.