HyperAIHyperAI
vor 9 Tagen

Tiefe Lernarchitekturen für die Diagnose der diabetischen Retinopathie

{Pablo Hernández-Cámara, Jorge Vila-Tomás, Regino Barranquero-Cardeñosa, Marcelino Martínez-Sober, Kevin N. Dietrich, Alberto Solano}
Abstract

Seit vielen Jahren dominierten Faltungsneuronale Netze (Convolutional Neural Networks, CNNs) das Feld der Computer Vision, nicht zuletzt im medizinischen Bereich, wo Aufgaben wie die Bildsegmentierung beispielsweise mittels Architekturen wie U-Net angegangen wurden. Die Einführung von selbst-Attention-basierten Netzwerken in die Computer Vision durch Vision Transformers (ViTs) scheint nun den Trend hin zu herkömmlichen Faltungen zu verändern. In dieser Arbeit wenden wir verschiedene Architekturen – darunter U-Net, ViTs und ConvMixer – an, um deren Leistungsfähigkeit bei einer medizinischen semantischen Segmentierungsaufgabe zu vergleichen. Alle Modelle wurden von Grund auf auf dem DRIVE-Datensatz trainiert und anhand ihrer privaten Gegenstücke evaluiert, um festzustellen, welches Modell bei der Segmentierung am besten abschneidet. Unser zentraler Beitrag besteht darin, zu zeigen, dass das bestperformende Modell (ConvMixer) die von ViTs übernommene Herangehensweise (Verarbeitung von Bildern als Patche) beibehält, gleichzeitig aber die grundlegenden Bausteine (Faltungen) von U-Net beibehält. Diese Kombination erzielt nicht nur bessere Ergebnisse (DICE = 0,83) als ViTs (0,80 / 0,077 für UNETR / SWIN-Unet) und U-Net (0,82) einzeln, sondern reduziert auch deutlich die Anzahl der Parameter (2,97 Mio. gegenüber 104 Mio. / 27 Mio. und 31 Mio.) und zeigt damit, dass für die Lösung von Bildproblemen keine systematische Verwendung großer Modelle notwendig ist – kleinere Architekturen, die aus optimalen Bausteinen zusammengesetzt sind, können bessere Ergebnisse liefern.