TransBTS : Segmentation multimodale des tumeurs cérébrales basée sur le Transformer

Le modèle Transformer, qui peut tirer parti de la modélisation d'informations globales (à longue portée) grâce à des mécanismes d'attention auto-attentive, a récemment connu un grand succès dans le traitement du langage naturel et la classification d'images 2D. Toutefois, pour les tâches de prédiction dense, notamment la segmentation d'images médicales 3D, il est essentiel de capturer à la fois des caractéristiques locales et globales. Dans cet article, nous proposons pour la première fois d'exploiter le Transformer dans un cadre de réseaux de neurones convolutifs 3D (3D CNN) pour la segmentation de tumeurs cérébrales à partir d'IRM, en introduisant un nouveau réseau appelé TransBTS, basé sur une architecture encodeur-décodeur. Afin de capturer les informations contextuelles locales en 3D, l'encodeur utilise initialement un réseau CNN 3D pour extraire des cartes de caractéristiques spatiales volumétriques. Parallèlement, ces cartes de caractéristiques sont restructurées de manière soignée afin d’être transformées en « tokens » alimentant le Transformer pour la modélisation des caractéristiques globales. Le décodeur utilise ensuite les caractéristiques enrichies par le Transformer et effectue une montée en résolution progressive afin de prédire la carte de segmentation détaillée. Les résultats expérimentaux étendus sur les jeux de données BraTS 2019 et 2020 montrent que TransBTS atteint des performances comparables ou supérieures à celles des méthodes 3D les plus avancées précédemment publiées pour la segmentation des tumeurs cérébrales à partir d'IRM 3D. Le code source est disponible à l'adresse suivante : https://github.com/Wenxuan-1119/TransBTS