UNeXt : Réseau d'inférence rapide d'images médicales basé sur MLP

UNet et ses extensions récentes, telles que TransUNet, se sont imposées comme des méthodes de segmentation d’images médicales de pointe ces dernières années. Toutefois, ces réseaux ne peuvent pas être efficacement appliqués à la segmentation d’images rapides dans les contextes de soins au point de traitement (point-of-care) en raison de leur grande densité de paramètres, de leur complexité computationnelle élevée et de leur lenteur d’exécution. À cet effet, nous proposons UNeXt, un réseau fondé sur un perceptron multicouche (MLP) à convolution pour la segmentation d’images. Nous concevons UNeXt de manière efficace, en intégrant une étape précoce de convolution suivie d’une étape MLP dans l’espace latent. Nous introduisons un bloc MLP tokenisé, dans lequel nous tokenisons et projetons efficacement les caractéristiques issues de la convolution, puis utilisons des MLPs pour modéliser les représentations. Pour renforcer davantage les performances, nous proposons de décaler les canaux des entrées lors de leur alimentation dans les MLPs, afin de favoriser l’apprentissage des dépendances locales. L’utilisation de MLPs tokenisés dans l’espace latent réduit significativement le nombre de paramètres et la complexité computationnelle, tout en permettant d’obtenir une représentation améliorée, bénéfique pour la segmentation. Le réseau inclut également des connexions de saut (skip connections) entre différentes couches de l’encodeur et du décodeur. Nous évaluons UNeXt sur plusieurs jeux de données de segmentation d’images médicales et montrons qu’il permet de réduire le nombre de paramètres de 72 fois, de diminuer la complexité computationnelle de 68 fois, et d’accélérer l’inférence de 10 fois, tout en atteignant des performances de segmentation supérieures à celles des architectures les plus avancées actuelles. Le code est disponible à l’adresse suivante : https://github.com/jeya-maria-jose/UNeXt-pytorch