LoViT : Long Video Transformer pour la Reconnaissance des Phases Chirurgicales

La reconnaissance en ligne des phases chirurgicales joue un rôle significatif dans la création d'outils contextuels capables de quantifier les performances et de superviser l'exécution des flux de travail chirurgicaux. Les approches actuelles sont limitées car elles forment des extracteurs de caractéristiques spatiales à l'aide d'une supervision au niveau des images, ce qui peut entraîner des prédictions incorrectes dues à la présence d'images similaires à différents stades, et fusionnent mal les caractéristiques locales et globales en raison des contraintes computationnelles, affectant ainsi l'analyse des vidéos longues couramment rencontrées lors d'interventions chirurgicales. Dans cet article, nous présentons une méthode en deux étapes, appelée Long Video Transformer (LoViT), pour fusionner les informations temporelles à court et long terme. Cette méthode combine un extracteur de caractéristiques spatiales riche en temps et un agrégateur temporel multi-échelle composé de deux modules L-Trans en cascade basés sur l'auto-attention, suivis d'un module G-Informer basé sur l'auto-attention ProbSparse pour traiter les informations temporelles globales. La tête temporelle multi-échelle combine ensuite les caractéristiques locales et globales et classe les phases chirurgicales en utilisant une supervision consciente des transitions de phase. Notre approche surpassent constamment les méthodes de pointe sur les jeux de données Cholec80 et AutoLaparo. Par rapport à Trans-SVNet, LoViT réalise une amélioration de 2,4 points de pourcentage (pp) en précision au niveau vidéo sur Cholec80 et une amélioration de 3,1 pp sur AutoLaparo. De plus, elle obtient une amélioration de 5,3 pp du coefficient Jaccard au niveau des phases sur AutoLaparo et une amélioration de 1,55 pp sur Cholec80. Nos résultats démontrent l'efficacité de notre approche pour atteindre des performances de pointe en reconnaissance des phases chirurgicales sur deux jeux de données représentant différentes procédures chirurgicales et caractéristiques séquentielles temporelles tout en introduisant des mécanismes permettant de gérer les vidéos longues.