DoubleU-Net: Ein tiefes Faltungsneuronales Netzwerk für die Segmentierung medizinischer Bilder

Semantische Bildsegmentierung ist der Prozess, bei dem jedem Pixel eines Bildes seine entsprechende Klasse zugeordnet wird. Ein auf einem Encoder-Decoder-Prinzip basierender Ansatz, wie U-Net und dessen Varianten, ist eine weit verbreitete Strategie zur Lösung von medizinischen Bildsegmentierungsaufgaben. Um die Leistungsfähigkeit von U-Net bei verschiedenen Segmentierungsaufgaben zu verbessern, schlagen wir eine neuartige Architektur namens DoubleU-Net vor, die eine Kombination aus zwei U-Net-Architekturen darstellt, die übereinander gestapelt sind. Das erste U-Net verwendet einen vortrainierten VGG-19 als Encoder, der bereits Merkmale aus ImageNet gelernt hat und leicht auf eine andere Aufgabe übertragen werden kann. Um semantische Informationen effizienter zu erfassen, haben wir ein weiteres U-Net am unteren Ende hinzugefügt. Zudem setzen wir Atrous Spatial Pyramid Pooling (ASPP) ein, um kontextuelle Informationen innerhalb des Netzes zu erfassen. Wir haben DoubleU-Net anhand von vier medizinischen Segmentierungsdatasets evaluiert, die verschiedene bildgebende Modalitäten wie Kolonoskopie, Dermoskopie und Mikroskopie abdecken. Experimente im Rahmen der MICCAI 2015 Segmentierungschallenge, des CVC-ClinicDB-Datensatzes, der 2018 Data Science Bowl Challenge und der Lesionsgrenzsegmentierungsdatasets zeigen, dass DoubleU-Net U-Net und die Baseline-Modelle übertrifft. Darüber hinaus erzeugt DoubleU-Net genaue Segmentierungs-Masken, insbesondere bei den CVC-ClinicDB- und MICCAI 2015 Segmentierungschallenge-Datensätzen, die herausfordernde Bilder wie kleinere und flachere Polypen enthalten. Diese Ergebnisse belegen den Fortschritt gegenüber dem bestehenden U-Net-Modell. Die ermutigenden Ergebnisse, die auf verschiedenen medizinischen Bildsegmentierungsdatasets erzielt wurden, zeigen, dass DoubleU-Net als robuste Baseline sowohl für medizinische Bildsegmentierung als auch für Cross-Dataset-EvaluationsTests zur Messung der Generalisierbarkeit von Tiefen Lernalgorithmen (Deep Learning [DL]) eingesetzt werden kann.