Réinterroger la mise en gate de l'attention avec un Transformer-CNN à pyramide double hybride pour la segmentation généralisée en imagerie médicale

Inspirés par le succès des Transformers en vision par ordinateur, les Transformers ont été largement explorés pour la segmentation d’images médicales. Toutefois, la plupart des architectures Transformer actuelles s’appuient sur des architectures récentes de Transformers en tant qu’encodeur, ou en tant qu’encodeur parallèle associé à un encodeur CNN. Dans cet article, nous proposons une nouvelle architecture hybride CNN-Transformers pour la segmentation (PAG-TransYnet), conçue pour construire efficacement un encodeur puissant combinant CNN et Transformers. Notre approche exploite des portes d’attention au sein d’un encodeur hybride à double pyramide. Les contributions de cette méthodologie peuvent être résumées en trois aspects clés : (i) l’utilisation d’un entrée en pyramide pour mettre en évidence les caractéristiques dominantes à différentes échelles, (ii) l’intégration d’un Transformer PVT afin de capturer les dépendances à longue portée à travers différentes résolutions, et (iii) la mise en œuvre d’un mécanisme de double porte d’attention pour fusionner efficacement les caractéristiques dominantes provenant des branches CNN et Transformers. À travers une évaluation approfondie sur diverses tâches de segmentation, notamment la segmentation des organes abdominaux multiples, la segmentation des infections (Covid-19 et métastases osseuses), ainsi que la segmentation des tissus microscopiques (glandes et noyaux), l’approche proposée démontre des performances de pointe et une capacité de généralisation remarquable. Ce travail représente une avancée significative vers la résolution de la nécessité pressante de solutions de segmentation efficaces et adaptatives dans les applications d’imagerie médicale.