HyperAIHyperAI
il y a 17 jours

Medical Transformer : Attention axiale à portes pour la segmentation d'images médicales

Jeya Maria Jose Valanarasu, Poojan Oza, Ilker Hacihaliloglu, Vishal M. Patel
Medical Transformer : Attention axiale à portes pour la segmentation d'images médicales
Résumé

Au cours de la dernière décennie, les réseaux de neurones convolutifs profonds (Deep Convolutional Neural Networks) ont été largement adoptés pour la segmentation d’images médicales et ont démontré des performances satisfaisantes. Toutefois, en raison des biais inductifs inhérents aux architectures convolutionnelles, ces modèles manquent de compréhension des dépendances à longue portée présentes dans les images. Les architectures récemment proposées basées sur les Transformers, qui exploitent le mécanisme d’attention auto-attentionnelle, permettent de capturer efficacement les dépendances à longue portée et d’apprendre des représentations hautement expressives. Cela nous a motivés à explorer des solutions basées sur les Transformers et à étudier la faisabilité d’utiliser des architectures de réseaux basés sur les Transformers pour des tâches de segmentation d’images médicales. La majorité des architectures Transformer existantes proposées pour les applications visuelles nécessitent des jeux de données à grande échelle pour être entraînées correctement. Toutefois, par rapport aux jeux de données utilisés pour les applications visuelles, le nombre d’échantillons disponibles en imagerie médicale est relativement faible, ce qui rend difficile l’entraînement efficace des Transformers pour des applications médicales. À cet effet, nous proposons un modèle Gated Axial-Attention, qui étend les architectures existantes en introduisant un mécanisme de contrôle supplémentaire dans le module d’attention auto-attentionnelle. En outre, pour entraîner efficacement le modèle sur des images médicales, nous proposons une stratégie d’entraînement Local-Global (LoGo), qui améliore davantage les performances. Plus précisément, nous traitons l’image entière et les patches séparément afin d’apprendre respectivement des caractéristiques globales et locales. Le Transformer médical proposé (MedT) est évalué sur trois jeux de données différents pour la segmentation d’images médicales, et les résultats montrent qu’il atteint des performances supérieures par rapport aux architectures convolutionnelles ainsi qu’aux autres architectures basées sur les Transformers. Code : https://github.com/jeya-maria-jose/Medical-Transformer