Command Palette
Search for a command to run...
Pré-entraînement auto-supervisé des transformateurs Swin pour l'analyse d'images médicales 3D
Pré-entraînement auto-supervisé des transformateurs Swin pour l'analyse d'images médicales 3D
Yucheng Tang Dong Yang Wenqi Li Holger Roth Bennett Landman Daguang Xu Vishwesh Nath Ali Hatamizadeh
Résumé
Les Vision Transformers (ViT) ont démontré des performances remarquables dans l'apprentissage auto-supervisé de représentations globales et locales, pouvant être transférées à des applications en aval. Inspirés par ces résultats, nous introduisons un nouveau cadre d'apprentissage auto-supervisé, doté de tâches proxy spécifiquement conçues pour l'analyse d'images médicales. Plus précisément, nous proposons : (i) un nouveau modèle basé sur les transformateurs 3D, nommé Swin UNEt TRansformers (Swin UNETR), comprenant un encodeur hiérarchique destiné à l'entraînement préalable auto-supervisé ; (ii) des tâches proxy adaptées pour capturer les motifs sous-jacents de l'anatomie humaine. Nous démontrons un entraînement préalable réussi du modèle proposé sur 5 050 images de tomodensitométrie (CT) publiques provenant de divers organes corporels. L'efficacité de notre approche est validée par le fine-tuning des modèles pré-entraînés sur le défi de segmentation Beyond the Cranial Vault (BTCV), comprenant 13 organes abdominaux, ainsi que sur les tâches de segmentation du jeu de données Medical Segmentation Decathlon (MSD). Notre modèle est actuellement le meilleur état de l'art (c’est-à-dire classé en première position) sur les classements publics de test des deux jeux de données MSD et BTCV. Code : https://monai.io/research/swin-unetr