Apprentissage non supervisé pour l'analyse de vidéos endoscopiques

L'apprentissage auto-supervisé (SSL) a permis des avancées majeures en vision par ordinateur en permettant d'apprendre à partir de grandes quantités de données non étiquetées. À cet égard, il pourrait jouer un rôle déterminant en biomédecine, où l'étiquetage des données exige une expertise hautement spécialisée. Pourtant, de nombreux domaines de la santé n'ont pas encore été largement explorés par le biais du SSL. Un tel domaine est l'endoscopie, des procédures peu invasives couramment utilisées pour détecter et traiter des infections, des maladies inflammatoires chroniques ou le cancer. Dans ce travail, nous étudions l'application d'un cadre SSL de pointe, à savoir les Réseaux Siamese Masqués (MSNs), à l'analyse vidéo endoscopique, telle que la coloscopie ou la laparoscopie. Afin d'exploiter pleinement le potentiel du SSL, nous avons constitué de grands jeux de données vidéo endoscopiques non étiquetés pour entraîner les MSNs. Ces représentations d'images robustes servent de fondation à un entraînement secondaire à partir de jeux de données annotées limitées, permettant d'atteindre des performances de pointe sur des benchmarks endoscopiques, comme la reconnaissance de phase chirurgicale en laparoscopie ou la caractérisation des polypes en coloscopie. En outre, nous avons obtenu une réduction de 50 % de la taille des données annotées sans compromettre les performances. Ainsi, notre travail fournit des preuves que le SSL peut considérablement réduire la dépendance aux données annotées en endoscopie.