EfficientMorph : Architecture Basée sur les Transformers à Paramètres Efficaces pour l'Enregistrement d'Images 3D

Les Transformers sont apparus comme l'architecture de pointe dans le domaine du recalage d'images médicales, surpassant les réseaux neuronaux convolutifs (CNN) en résolvant leurs champs récepteurs limités et en surmontant l'instabilité des gradients dans les modèles plus profonds. Malgré leur succès, les modèles basés sur les Transformers nécessitent des ressources considérables pour l'entraînement, notamment des données, de la mémoire et une puissance de calcul importante, ce qui peut restreindre leur utilisation par des utilisateurs finaux disposant de ressources limitées. En particulier, les architectures actuelles de recalage d'images 3D basées sur les Transformers font face à deux lacunes critiques qui remettent en question leur efficacité et leur performance. Premièrement, bien que les mécanismes d'attention basés sur des fenêtres réduisent la complexité quadratique de l'attention complète en se concentrant sur des régions locales, ils peinent souvent à intégrer efficacement à la fois les informations locales et globales. Deuxièmement, la granularité de la tokenisation, un facteur crucial pour la précision du recalage, présente un compromis en termes de performance : des tokens de taille voxel plus petite améliorent la capture des détails mais entraînent une complexité computationnelle accrue, une utilisation plus importante de la mémoire et un risque accru de surapprentissage.Nous présentons \name, une architecture basée sur les Transformers pour le recalage d'images 3D non supervisé qui équilibre l'attention locale et globale dans les volumes 3D grâce à un mécanisme d'attention basé sur des plans et utilise une stratégie de tokenisation Haute-Résolution avec des opérations de fusion, permettant ainsi de capturer des détails plus fins sans compromettre l'efficacité computationnelle. Notamment, \name établit un nouveau standard de performance sur le jeu de données OASIS avec 16 à 27 fois moins de paramètres. https://github.com/MedVIC-Lab/Efficient_Morph_Registration