HyperAIHyperAI
il y a 3 mois

Fusion de caractéristiques FCN-Transformer pour la segmentation des polypes

Edward Sanderson, Bogdan J. Matuszewski
Fusion de caractéristiques FCN-Transformer pour la segmentation des polypes
Résumé

La coloscopie est largement reconnue comme la méthode de référence pour la détection précoce du cancer colorectal (CRC). La segmentation est particulièrement utile pour deux applications cliniques majeures : la détection et la classification des lésions, offrant ainsi un moyen d’améliorer la précision et la robustesse des diagnostics. La segmentation manuelle des polypes sur les images de coloscopie est un processus long et fastidieux. En conséquence, l’utilisation du deep learning (DL) pour automatiser la segmentation des polypes est devenue essentielle. Toutefois, les solutions basées sur le deep learning sont susceptibles de surajuster les données d’entraînement, ce qui limite leur capacité à généraliser à des images acquises avec des coloscopes différents. Les architectures récentes basées sur les transformateurs pour la segmentation sémantique offrent à la fois de meilleures performances et une meilleure généralisation par rapport aux approches traditionnelles, mais elles prédisent généralement une carte de segmentation de dimensions spatiales $\frac{h}{4}\times\frac{w}{4}$ pour une image d’entrée de taille $h\times w$. À cet effet, nous proposons une nouvelle architecture permettant une segmentation à pleine résolution, qui exploite les forces du transformateur pour extraire les caractéristiques les plus pertinentes pour la segmentation dans une branche principale, tout en compensant ses limites en prédiction à pleine taille grâce à une branche secondaire entièrement convolutive. Les caractéristiques issues des deux branches sont ensuite fusionnées afin d’obtenir une prédiction finale d’une carte de segmentation de taille $h\times w$. Nous démontrons la performance de pointe de notre méthode selon les métriques mDice, mIoU, mPrecision et mRecall sur les benchmarks Kvasir-SEG et CVC-ClinicDB. En outre, nous entraînons le modèle sur chacun de ces jeux de données et évaluons sa performance sur l’autre, ce qui met en évidence sa supériorité en termes de généralisation.