Le Transformateur Entièrement Convolutionnel pour la Segmentation d'Images Médicales

Nous proposons un nouveau modèle de transformer capable de segmenter des images médicales de modalités variées. Les défis posés par la nature fine des analyses d’images médicales font que l’adaptation des transformeurs à ces tâches se trouve encore à un stade précoce. Le succès considérable du modèle UNet s’explique par sa capacité à saisir la nature fine de la tâche de segmentation, une capacité que les modèles basés sur les transformeurs existants ne possèdent pas actuellement. Pour pallier ce manque, nous introduisons le Fully Convolutional Transformer (FCT), qui s’appuie sur la capacité éprouvée des réseaux de neurones convolutifs (CNN) à apprendre des représentations d’images efficaces, tout en combinant cette capacité avec celle des transformeurs à capturer efficacement les dépendances à long terme dans leurs entrées. Le FCT est le premier modèle de transformer entièrement convolutif dans la littérature de l’imagerie médicale. Il traite son entrée en deux étapes : premièrement, il apprend à extraire des dépendances sémantiques à longue portée à partir de l’image d’entrée, puis il apprend à capturer des attributs globaux hiérarchiques à partir des caractéristiques extraites. Le FCT est compact, précis et robuste. Nos résultats montrent qu’il surpasse largement toutes les architectures de transformeurs existantes sur plusieurs jeux de données de segmentation d’images médicales, pour des modalités de données variées, sans nécessiter de pré-entraînement. Le FCT dépasse son concurrent immédiat sur le jeu de données ACDC de 1,3 %, sur Synapse de 4,4 %, sur Spleen de 1,2 % et sur le jeu de données ISIC 2017 de 1,1 % selon le score Dice, tout en utilisant jusqu’à cinq fois moins de paramètres. Notre code, les environnements et les modèles seront disponibles via GitHub.