Vergrößerungsinvariante medizinische Bildanalyse: Ein Vergleich von Faltungsnetzen, Visionstransformatoren und Token-Mischern

Faltungsneuronale Netze (CNNs) werden häufig in der medizinischen Bildanalyse eingesetzt, aber ihre Leistung verschlechtert sich, wenn die Vergrößerung der Testbilder von den Trainingsbildern abweicht. Die Unfähigkeit von CNNs, sich auf verschiedene Vergrößerungsskalen zu generalisieren, kann zu suboptimaler Leistung auf externen Datensätzen führen. Diese Studie zielt darauf ab, die Robustheit verschiedener Deep-Learning-Architekturen bei der Analyse von Histopathologiebildern des Mammakarzinoms mit variierenden Vergrößerungsskalen während der Trainings- und Testphasen zu evaluieren. Hier untersuchen und vergleichen wir die Leistung mehrerer Deep-Learning-Architekturen, darunter CNN-basierte ResNet und MobileNet, selbst-merksamkeitbasierte Vision Transformers und Swin Transformers sowie Token-Mixing-Modelle wie FNet, ConvMixer, MLP-Mixer und WaveMix. Die Experimente wurden mit dem BreakHis-Datensatz durchgeführt, der Histopathologiebilder des Mammakarzinoms in verschiedenen Vergrößerungsstufen enthält. Wir zeigen, dass die Leistung von WaveMix unabhängig von der Vergrößerung der Trainings- und Testdaten ist und stabile und gute Klassifizierungsgenauigkeit bieten kann. Diese Evaluierungen sind entscheidend für die Identifikation von Deep-Learning-Architekturen, die robust mit Änderungen der Vergrößerungsskala umgehen können, um sicherzustellen, dass Skalenänderungen in anatomischen Strukturen die Inferenzergebnisse nicht stören.