Transformateur d’image hiérarchique à multiples échelles avec décodage par attention en cascade pour la segmentation d’images médicales

Les Transformers ont démontré un succès considérable dans la segmentation d’images médicales. Toutefois, les Transformers peuvent présenter une capacité de généralisation limitée en raison du mécanisme fondamental d’attention auto-associative à échelle unique (SA). Dans cet article, nous abordons ce problème en proposant un réseau principal, appelé MERIT (Multi-scale hiERarchical vIsion Transformer), qui améliore la généralisabilité du modèle en calculant l’attention auto-associative à plusieurs échelles. Nous intégrons également un décodeur basé sur l’attention, nommé Cascaded Attention Decoding (CASCADE), afin de raffiner davantage les caractéristiques multi-étapes générées par MERIT. Enfin, nous introduisons une méthode efficace d’agrégation de pertes par mélange de caractéristiques multi-étapes, appelée MUTATION, pour une formation améliorée du modèle via une ensemblage implicite. Nos expériences sur deux benchmarks largement utilisés pour la segmentation d’images médicales (à savoir Synapse Multi-organ et ACDC) démontrent la supériorité de MERIT par rapport aux méthodes de pointe. L’architecture MERIT ainsi que l’agrégation de pertes MUTATION peuvent être facilement adaptées à diverses tâches ultérieures de segmentation d’images médicales et de segmentation sémantique.