EndoNet : Une architecture profonde pour les tâches de reconnaissance sur les vidéos laparoscopiques

La reconnaissance du flux opératoire chirurgical présente de nombreuses applications médicales potentielles, telles que l'indexation automatique des bases de données vidéo chirurgicales et l'optimisation de la planification en temps réel des salles d'opération, entre autres. Par conséquent, la reconnaissance des phases a été étudiée dans le contexte de plusieurs types d'interventions chirurgicales, notamment les interventions pour cataracte, neurologiques et laparoscopiques. Dans la littérature, deux types de caractéristiques sont généralement utilisés pour effectuer cette tâche : les caractéristiques visuelles et les signaux d'utilisation des instruments. Cependant, les caractéristiques visuelles utilisées sont principalement conçues manuellement (handcrafted). De plus, les signaux d'utilisation des instruments sont généralement collectés par un processus d'annotation manuelle ou à l'aide d'équipements supplémentaires. Dans cet article, nous proposons une nouvelle méthode de reconnaissance des phases qui utilise un réseau neuronal convolutif (CNN) pour apprendre automatiquement des caractéristiques à partir de vidéos de cholécystectomie et qui repose uniquement sur l'information visuelle. Dans les études précédentes, il a été démontré que les signaux d'instruments peuvent fournir des informations précieuses pour la tâche de reconnaissance des phases. Ainsi, nous présentons une nouvelle architecture de CNN appelée EndoNet, conçue pour réaliser les tâches de reconnaissance des phases et de détection de présence d'instruments de manière multitâche. Selon nos connaissances actuelles, c'est le premier travail proposant d'utiliser un CNN pour plusieurs tâches de reconnaissance sur des vidéos laparoscopiques. Des comparaisons expérimentales approfondies avec d'autres méthodes montrent que EndoNet produit des résultats à l'état de l'art pour les deux tâches.