NanoNet : Segmentation en temps réel des polypes dans l'endoscopie par capsule vidéo et la coloscopie

L'apprentissage profond en endoscopie digestive peut aider à améliorer les performances cliniques et à évaluer plus précisément les lésions. À cet égard, les méthodes de segmentation sémantique capables de réaliser une délimitation automatisée en temps réel d'une région d'intérêt, par exemple l'identification des contours des lésions cancéreuses ou précancéreuses, peuvent bénéficier tant au diagnostic qu'aux interventions. Cependant, la segmentation précise et en temps réel des images endoscopiques est extrêmement difficile en raison de sa forte dépendance à l'opérateur et de la qualité d'image haute définition. Pour utiliser ces méthodes automatisées dans un cadre clinique, il est crucial de concevoir des modèles légers avec une faible latence afin qu'ils puissent être intégrés aux dispositifs d'endoscope bas de gamme. Dans cette étude, nous proposons NanoNet, une nouvelle architecture pour la segmentation des images d'endoscopie par capsule vidéo et de coloscopie. Notre architecture proposée permet une performance en temps réel et offre une précision de segmentation supérieure par rapport à d'autres architectures plus complexes. Nous utilisons des jeux de données d'endoscopie par capsule vidéo et de coloscopie standard contenant des polypes, ainsi qu'un jeu de données composé de biopsies endoscopiques et d'instruments chirurgicaux, pour évaluer l'efficacité de notre approche. Nos expériences montrent une meilleure performance de notre architecture en termes de compromis entre la complexité du modèle, la vitesse, les paramètres du modèle et les performances métriques. De plus, la taille du modèle résultant est relativement petite, avec seulement environ 36 000 paramètres comparativement aux approches traditionnelles d'apprentissage profond qui comptent plusieurs millions de paramètres.