Apprentissage faiblement supervisé pour la localisation des instruments dans les vidéos laparoscopiques

La localisation des instruments chirurgicaux est une tâche essentielle pour l'analyse automatique des vidéos endoscopiques. Dans la littérature, les méthodes existantes de localisation, de suivi et de segmentation des instruments nécessitent des données d'entraînement entièrement annotées, ce qui limite la taille des ensembles de données pouvant être utilisés et la généralisation des approches. Dans cette étude, nous proposons de contourner le manque de données annotées en utilisant une supervision faible. Nous présentons une architecture profonde, formée uniquement sur des annotations au niveau de l'image, qui peut être utilisée à la fois pour la détection et la localisation de la présence d'instruments dans les vidéos chirurgicales. Notre architecture repose sur un réseau neuronal convolutif entièrement convolutionnel, formé de bout en bout, ce qui nous permet de localiser les instruments chirurgicaux sans annotations spatiales explicites. Nous démontrons les avantages de notre approche sur un grand ensemble de données public, Cholec80, entièrement annoté avec des informations binaires sur la présence d'instruments, dont 5 vidéos ont été entièrement annotées avec des boîtes englobantes et des centres d'instruments pour l'évaluation.