SF-TMN : Réseau de modélisation temporelle SlowFast pour la reconnaissance des phases chirurgicales

La reconnaissance automatique des phases chirurgicales constitue l'une des technologies clés permettant de soutenir les systèmes d'évaluation basés sur la vidéo (VBA) en formation chirurgicale. L'exploitation de l'information temporelle est essentielle pour la reconnaissance des phases chirurgicales ; par conséquent, de nombreuses approches récentes extraient des caractéristiques au niveau des trames afin de réaliser un modèle temporel complet sur la vidéo entière. Afin d'améliorer le modèle temporel, nous proposons le réseau de modélisation temporelle SlowFast (SF-TMN) pour la reconnaissance des phases chirurgicales, capable non seulement de réaliser une modélisation temporelle complète au niveau des trames sur la vidéo entière, mais aussi au niveau des segments. Nous utilisons un réseau d'extraction de caractéristiques pré-entraîné sur le jeu de données cible pour extraire des caractéristiques à partir des trames vidéo, utilisées comme données d'entraînement pour SF-TMN. La voie lente (Slow Path) de SF-TMN exploite toutes les caractéristiques des trames pour la modélisation temporelle au niveau des trames. La voie rapide (Fast Path) utilise des caractéristiques au niveau des segments, synthétisées à partir des caractéristiques des trames, pour la modélisation temporelle au niveau des segments. Le paradigme proposé est flexible quant au choix du réseau de modélisation temporelle. Nous explorons les modèles MS-TCN et ASFormer comme réseaux de modélisation temporelle, et expérimentons plusieurs stratégies de combinaison entre les voies lente et rapide. Nous évaluons SF-TMN sur la tâche de reconnaissance des phases chirurgicales Cholec80, et démontrons qu'il atteint des résultats de pointe sur toutes les métriques considérées. SF-TMN avec un noyau ASFormer dépasse de 2,6 % en précision et de 7,4 % en score de Jaccard la méthode de pointe actuelle non end-to-end (TCN). Nous évaluons également SF-TMN sur des jeux de données de segmentation d'actions, notamment 50salads, GTEA et Breakfast, où il obtient également des résultats de pointe. L'amélioration des performances démontre que la combinaison de l'information temporelle au niveau des trames et au niveau des segments, via des étapes de raffinement temporel, est bénéfique pour la modélisation temporelle des phases chirurgicales.