Inscription d’images covariante spatialement avec des promts textuels

Les images médicales sont généralement caractérisées par des représentations anatomiques structurées et des contrastes spatialement hétérogènes. L’exploitation de priori anatomiques dans les réseaux neuronaux peut considérablement améliorer leur efficacité dans des contextes cliniques à ressources limitées. Bien que des travaux antérieurs aient tiré parti de ces informations pour la segmentation d’images, les progrès réalisés en matière d’alignement d’images déformables ont été modestes. Notre travail présente textSCF, une nouvelle méthode qui intègre des filtres covariants spatialement et des indications anatomiques textuelles encodées par des modèles vision-langage, afin de combler cette lacune. Cette approche optimise une fonction implicite qui relie les embeddings textuels des régions anatomiques aux poids des filtres, en relâchant la contrainte habituelle d’invariance translationnelle des opérations de convolution. textSCF améliore non seulement l’efficacité computationnelle, mais peut également préserver ou améliorer la précision de l’alignement. En capturant les interactions contextuelles entre régions anatomiques, elle offre une remarquable transférabilité inter-région et la capacité à préserver les discontinuités structurelles lors de l’alignement. Les performances de textSCF ont été rigoureusement évaluées sur des tâches d’alignement inter-sujets d’IRM cérébrale et de tomographie par ordinateur abdominale, surpassant les modèles de pointe existants dans le cadre du défi MICCAI Learn2Reg 2021 et menant le classement. Dans les alignements abdominaux, la variante à grand modèle de textSCF a amélioré le score Dice de 11,3 % par rapport au deuxième meilleur modèle, tandis que sa variante à petit modèle a maintenu une précision similaire, tout en réduisant de 89,13 % le nombre de paramètres du réseau et de 98,34 % le nombre d’opérations computationnelles.