HyperAIHyperAI
il y a 7 jours

ViT-V-Net : Vision Transformer pour l'alignement non supervisé d'images médicales volumétriques

Junyu Chen, Yufan He, Eric C. Frey, Ye Li, Yong Du
ViT-V-Net : Vision Transformer pour l'alignement non supervisé d'images médicales volumétriques
Résumé

Au cours de la dernière décennie, les réseaux de neurones convolutifs (ConvNets) ont dominé le paysage des applications d'imagerie médicale et ont atteint des performances de pointe dans de nombreux domaines. Toutefois, les performances des ConvNets restent limitées par leur incapacité à capturer les relations spatiales à longue portée au sein d'une image. Le modèle Vision Transformer (ViT), récemment proposé pour la classification d'images, repose sur une architecture entièrement fondée sur l'attention auto-attentionnelle, permettant d'apprendre efficacement ces relations spatiales à longue portée afin de se concentrer sur les régions pertinentes de l'image. Néanmoins, en raison des réductions successives de résolution (downsamplings), le ViT accorde une priorité aux caractéristiques à faible résolution, ce qui entraîne une perte d'informations détaillées sur la localisation, rendant ce modèle peu adapté à la régistration d'images. Récemment, plusieurs méthodes de segmentation d'images basées sur le ViT ont été combinées avec des ConvNets afin d'améliorer la récupération d'informations de localisation fine. Inspirés par ces approches, nous proposons ViT-V-Net, une architecture qui relie le ViT et le ConvNet pour permettre la régistration d'images médicales volumétriques. Les résultats expérimentaux présentés ici démontrent que l'architecture proposée atteint des performances supérieures par rapport à plusieurs méthodes de régistration haut de gamme.

ViT-V-Net : Vision Transformer pour l'alignement non supervisé d'images médicales volumétriques | Articles de recherche récents | HyperAI