Frontières de la coloscopie intelligente

La coloscopie est actuellement l'une des méthodes de dépistage les plus sensibles pour le cancer colorectal. Cette étude examine les frontières des techniques de coloscopie intelligente et leurs implications prospectives pour les applications médicales multimodales. Dans ce but, nous commençons par évaluer les paysages centrés sur les données et centrés sur les modèles actuels à travers quatre tâches de perception de la scène coloscopique, incluant la classification, la détection, la segmentation et la compréhension vision-langue. Cette évaluation nous permet d'identifier les défis spécifiques au domaine et révèle que la recherche multimodale en coloscopie reste ouverte à une exploration supplémentaire. Pour accueillir l'ère multimodale à venir, nous établissons trois initiatives fondamentales : un ensemble de données d'ajustement d'instructions multimodales à grande échelle appelé ColonINST, un modèle de langage multimodal conçu pour la coloscopie nommé ColonGPT, et un benchmark multimodal. Afin de faciliter le suivi continu de ce domaine en rapide évolution, nous mettons à disposition un site web public pour les dernières mises à jour : https://github.com/ai4colonoscopy/IntelliScope.