Architectures d'apprentissage profond pour le diagnostic de la rétinopathie diabétique
Pendant de nombreuses années, les réseaux de neurones convolutifs ont dominé le domaine de la vision par ordinateur, notamment dans le domaine médical, où des problèmes tels que la segmentation d’images ont été abordés à l’aide de réseaux comme U-Net. L’arrivée des réseaux basés sur l’attention auto-associative dans le domaine de la vision par ordinateur, via les Vision Transformers (ViTs), semble avoir marqué un tournant dans l’usage des convolutions standard. Dans ce travail, nous appliquons différentes architectures, telles que U-Net, ViTs et ConvMixer, afin de comparer leurs performances sur un problème de segmentation sémantique médicale. Tous les modèles ont été entraînés à partir de zéro sur le jeu de données DRIVE et évalués sur leurs versions privées respectives afin d’identifier celui qui se distingue le mieux dans la tâche de segmentation. Notre contribution majeure réside dans la démonstration que le modèle performant (ConvMixer) est celui qui adopte l’approche des ViTs (traitement des images par découpage en patches) tout en conservant les blocs fondamentaux des U-Net (convolutions). Ce mélange ne produit pas seulement de meilleurs résultats (indice DICE = 0,83) que les ViTs (0,80 / 0,077 pour UNETR / SWIN-Unet) et le U-Net (0,82) pris séparément, mais réduit également de manière significative le nombre de paramètres (2,97 millions contre 104 millions / 27 millions et 31 millions, respectivement), ce qui montre qu’il n’est pas nécessaire d’utiliser systématiquement des modèles volumineux pour résoudre des problèmes d’images : des architectures plus petites, composées des éléments optimaux, peuvent offrir des performances supérieures.