HyperAIHyperAI

Command Palette

Search for a command to run...

Tiefe Lernarchitekturen für die Diagnose der diabetischen Retinopathie

Pablo Hernández-Cámara Jorge Vila-Tomás Regino Barranquero-Cardeñosa Marcelino Martínez-Sober Kevin N. Dietrich Alberto Solano

Zusammenfassung

Seit vielen Jahren dominierten Faltungsneuronale Netze (Convolutional Neural Networks, CNNs) das Feld der Computer Vision, nicht zuletzt im medizinischen Bereich, wo Aufgaben wie die Bildsegmentierung beispielsweise mittels Architekturen wie U-Net angegangen wurden. Die Einführung von selbst-Attention-basierten Netzwerken in die Computer Vision durch Vision Transformers (ViTs) scheint nun den Trend hin zu herkömmlichen Faltungen zu verändern. In dieser Arbeit wenden wir verschiedene Architekturen – darunter U-Net, ViTs und ConvMixer – an, um deren Leistungsfähigkeit bei einer medizinischen semantischen Segmentierungsaufgabe zu vergleichen. Alle Modelle wurden von Grund auf auf dem DRIVE-Datensatz trainiert und anhand ihrer privaten Gegenstücke evaluiert, um festzustellen, welches Modell bei der Segmentierung am besten abschneidet. Unser zentraler Beitrag besteht darin, zu zeigen, dass das bestperformende Modell (ConvMixer) die von ViTs übernommene Herangehensweise (Verarbeitung von Bildern als Patche) beibehält, gleichzeitig aber die grundlegenden Bausteine (Faltungen) von U-Net beibehält. Diese Kombination erzielt nicht nur bessere Ergebnisse (DICE = 0,83) als ViTs (0,80 / 0,077 für UNETR / SWIN-Unet) und U-Net (0,82) einzeln, sondern reduziert auch deutlich die Anzahl der Parameter (2,97 Mio. gegenüber 104 Mio. / 27 Mio. und 31 Mio.) und zeigt damit, dass für die Lösung von Bildproblemen keine systematische Verwendung großer Modelle notwendig ist – kleinere Architekturen, die aus optimalen Bausteinen zusammengesetzt sind, können bessere Ergebnisse liefern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Tiefe Lernarchitekturen für die Diagnose der diabetischen Retinopathie | Paper | HyperAI