MedNeXt : Transformation de l'escalade des ConvNets pour la segmentation d'images médicales par les LLM

L’intérêt croissant porté aux architectures basées sur les Transformers pour la segmentation d’images médicales ne cesse de s’accroître. Toutefois, le manque de jeux de données médicaux annotés à grande échelle rend difficile l’atteinte de performances équivalentes à celles observées sur les images naturelles. En revanche, les réseaux de convolution possèdent des biais inductifs plus élevés, ce qui leur permet d’être entraînés plus facilement avec de hauts niveaux de performance. Récemment, l’architecture ConvNeXt a tenté de moderniser les réseaux de convolution classiques en imitant la structure des blocs Transformer. Dans ce travail, nous améliorons cette approche afin de concevoir une architecture convolutive modernisée et évolutif, spécifiquement adaptée aux défis posés par les environnements médicaux à faible quantité de données. Nous proposons MedNeXt, un réseau de segmentation à grands noyaux inspiré des Transformers, qui introduit : 1) un réseau encodeur-décodeur 3D entièrement basé sur ConvNeXt pour la segmentation d’images médicales ; 2) des blocs d’interpolation et de décimation convolutifs résiduels de type ConvNeXt, permettant de préserver la richesse sémantique à travers les échelles ; 3) une nouvelle technique itérative d’augmentation progressive des tailles de noyaux par suréchantillonnage de réseaux à petits noyaux, afin d’éviter le plafonnement des performances sur des données médicales limitées ; 4) une extension composée à plusieurs niveaux (profondeur, largeur, taille du noyau) au sein de MedNeXt. Ces innovations permettent d’atteindre des performances de pointe sur quatre tâches menées sur des modalités CT et MRI, avec des tailles de jeux de données variables, établissant ainsi une architecture profonde modernisée pour la segmentation d’images médicales. Le code source est rendu publiquement disponible à l’adresse suivante : https://github.com/MIC-DKFZ/MedNeXt.