Réseau de Convolution Récursif Multi-Tâches avec Perte de Corrélation pour l'Analyse des Vidéos Chirurgicales

La détection de la présence d'instruments chirurgicaux et la reconnaissance des phases chirurgicales sont deux tâches fondamentales mais complexes dans l'analyse vidéo chirurgicale, et constituent également des composantes essentielles de nombreuses applications dans les salles d'opération modernes. Bien que ces deux tâches soient fortement corrélées en pratique clinique, car le processus chirurgical est bien défini, la plupart des méthodes précédentes les abordaient séparément, sans tirer pleinement parti de leur interdépendance. Dans cet article, nous présentons une nouvelle méthode en développant un réseau convolutif récurrent multi-tâche avec perte de corrélation (MTRCNet-CL) pour exploiter cette corrélation afin d'améliorer simultanément les performances des deux tâches. Plus précisément, notre modèle MTRCNet-CL propose une architecture de bout en bout avec deux branches qui partagent des encodeurs de caractéristiques initiaux pour extraire des caractéristiques visuelles générales tout en disposant de couches supérieures distinctes ciblant des tâches spécifiques. Étant donné que l'information temporelle est cruciale pour la reconnaissance des phases, la mémoire à court et long terme (LSTM) est utilisée pour modéliser les dépendances séquentielles dans la branche de reconnaissance des phases. De manière plus importante encore, une nouvelle et efficace perte de corrélation a été conçue pour modéliser l'interdépendance entre la présence d'instruments et l'identification des phases pour chaque image vidéo, en minimisant la divergence des prédictions issues des deux branches. En mutualisant à la fois le partage de caractéristiques de bas niveau et la corrélation des prédictions de haut niveau, notre méthode MTRCNet-CL peut encourager les interactions entre les deux tâches dans une large mesure, ce qui apporte ainsi des avantages mutuels. Des expériences approfondies sur un grand ensemble de données vidéo chirurgicales (Cholec80) démontrent les performances exceptionnelles de notre méthode proposée, surpassant constamment les méthodes actuelles d'une marge considérable (par exemple, 89,1 % contre 81,0 % pour le mAP dans la détection de présence d'instruments et 87,4 % contre 84,5 % pour le score F1 dans la reconnaissance des phases). Le code source est disponible sur notre site web du projet.