Analyse d'images médicales invariante à la magnification : Une comparaison des réseaux de neurones convolutifs, des transformateurs visuels et des mélangeurs de jetons

Les Réseaux Neuronaux de Convolution (CNNs) sont largement utilisés dans l'analyse d'images médicales, mais leurs performances se dégradent lorsque le grossissement des images de test diffère de celui des images d'entraînement. L'incapacité des CNNs à généraliser sur différentes échelles de grossissement peut entraîner une performance sous-optimale sur des jeux de données externes. Cette étude vise à évaluer la robustesse de diverses architectures d'apprentissage profond dans l'analyse d'images histopathologiques du cancer du sein avec des échelles de grossissement variables aux stades d'entraînement et de test. Nous explorons et comparons les performances de plusieurs architectures d'apprentissage profond, notamment les réseaux basés sur les CNNs tels que ResNet et MobileNet, les Transformers visuels basés sur l'auto-attention et les Swin Transformers, ainsi que les modèles mixant des jetons, tels que FNet, ConvMixer, MLP-Mixer et WaveMix. Les expériences sont menées en utilisant le jeu de données BreakHis, qui contient des images histopathologiques du cancer du sein à différents niveaux de grossissement. Nous montrons que la performance de WaveMix est invariante au grossissement des données d'entraînement et de test et peut fournir une précision de classification stable et bonne. Ces évaluations sont cruciales pour identifier les architectures d'apprentissage profond capables de gérer robustement les changements d'échelle de grossissement, garantissant ainsi que les variations d'échelle entre les structures anatomiques n'affectent pas les résultats d'inférence.