MuST : Transformers Multirésolution pour la Reconnaissance des Phases Chirurgicales

La reconnaissance des phases chirurgicales dans les vidéos est cruciale pour améliorer les systèmes d'assistance chirurgicale informatisée, car elle permet une compréhension automatisée des étapes procédurales séquentielles. Les méthodes existantes s'appuient souvent sur des fenêtres temporelles fixes pour l'analyse vidéo afin d'identifier les phases chirurgicales dynamiques. Par conséquent, elles peinent à capturer simultanément les informations à court, moyen et long terme nécessaires pour comprendre pleinement les procédures chirurgicales complexes. Pour remédier à ces problèmes, nous proposons les Transformers Multi-Échelles pour la Reconnaissance des Phases Chirurgicales (MuST), une nouvelle approche basée sur les Transformers qui combine un encodeur de Cadres Multi-Termes avec un Module de Cohérence Temporelle afin de capturer des informations à travers plusieurs échelles temporelles d'une vidéo chirurgicale. Notre encodeur de Cadres Multi-Termes calcule les interdépendances au sein d'une hiérarchie d'échelles temporelles en échantillonnant des séquences avec des pas croissants autour du cadre d'intérêt. De plus, nous utilisons un encodeur Transformer à long terme sur les plongements de cadres pour renforcer davantage la raisonnement à long terme. MuST obtient de meilleures performances que les méthodes précédentes de pointe sur trois différents benchmarks publics.