HyperAIHyperAI
il y a 2 mois

AgileFormer : Transformer UNet Spatialement Agile pour la Segmentation d'Images Médicales

Peijie Qiu; Jin Yang; Sayantan Kumar; Soumyendu Sekhar Ghosh; Aristeidis Sotiras
AgileFormer : Transformer UNet Spatialement Agile pour la Segmentation d'Images Médicales
Résumé

Au cours des dernières décennies, les réseaux neuronaux profonds, en particulier les réseaux de neurones convolutifs, ont atteint des performances de pointe dans diverses tâches de segmentation d'images médicales. Récemment, l'introduction du vision transformer (ViT) a considérablement modifié le paysage des modèles de segmentation profonde. L'attention portée aux ViTs a augmenté, motivée par leurs excellentes performances et leur capacité à s'échelonner. Cependant, nous soutenons que la conception actuelle des modèles de segmentation basés sur le vision transformer UNet (ViT-UNet) peut ne pas traiter efficacement l'apparence hétérogène (par exemple, formes et tailles variables) des objets d'intérêt dans les tâches de segmentation d'images médicales. Pour relever ce défi, nous présentons une approche structurée visant à introduire des composants dynamiques spatiaux au ViT-UNet. Cette adaptation permet au modèle de capturer efficacement les caractéristiques des objets cibles présentant des apparences variées. Cela est réalisé grâce à trois composants principaux : \textbf{(i)} l'embedding de patchs déformables ; \textbf{(ii)} l'attention multi-têtes dynamique spatiale ; \textbf{(iii)} l'encodage positionnel déformable. Ces composants ont été intégrés dans une nouvelle architecture nommée AgileFormer. AgileFormer est un ViT-UNet spatialement agile conçu pour la segmentation d'images médicales. Des expériences menées sur trois tâches de segmentation utilisant des jeux de données publiquement disponibles ont démontré l'efficacité de la méthode proposée. Le code est disponible à l'adresse \href{https://github.com/sotiraslab/AgileFormer}{https://github.com/sotiraslab/AgileFormer}.