Command Palette
Search for a command to run...
DINOv3 établit-il une nouvelle norme pour la vision médicale ?
DINOv3 établit-il une nouvelle norme pour la vision médicale ?
Résumé
L'apparition des grands modèles fondamentaux de vision préentraînés sur des images naturelles diversifiées a marqué un tournant paradigmatique en vision par ordinateur. Toutefois, la question de la transférabilité de l'efficacité des modèles fondamentaux de pointe en vision vers des domaines spécialisés, tels que l'imagerie médicale, demeure ouverte. Ce rapport explore la question de savoir si DINOv3, un modèle d'architecture transformer de vision (ViT) auto-supervisé de pointe doté d'une forte capacité dans les tâches de prédiction dense, peut directement servir de codeur unifié et puissant pour des tâches de vision médicale, sans entraînement préalable spécifique au domaine. Pour répondre à cette question, nous évaluons DINOv3 sur des tâches courantes en imagerie médicale, incluant la classification et la segmentation 2D/3D sur une large gamme de modalités d'imagerie médicale. Nous analysons de manière systématique sa capacité d'échelle en variant les tailles des modèles et les résolutions d'entrée des images. Nos résultats révèlent que DINOv3 obtient des performances impressionnantes et établit une nouvelle référence solide. De manière remarquable, il parvient même à surpasser certains modèles fondamentaux spécifiques à la médecine, comme BiomedCLIP et CT-Net, sur plusieurs tâches, malgré un entraînement exclusivement basé sur des images naturelles. Toutefois, nous identifions des limites claires : les caractéristiques du modèle se dégradent dans des scénarios exigeant une spécialisation profonde du domaine, tels que les images pathologiques en lame entière (WSI), la microscopie électronique (EM) et la tomographie par émission de positons (PET). En outre, nous observons que DINOv3 ne suit pas de manière cohérente la loi d'échelle dans le domaine médical : les performances ne s'améliorent pas systématiquement avec des modèles plus grands ou des résolutions de caractéristiques plus fines, montrant des comportements d'échelle variés selon les tâches. En définitive, notre travail établit DINOv3 comme une référence robuste, dont les caractéristiques visuelles puissantes peuvent servir de priorité solide pour de nombreuses tâches médicales complexes. Cela ouvre des perspectives prometteuses pour l'avenir, telles que l'exploitation de ses caractéristiques pour imposer une cohérence multivue dans la reconstruction 3D.