Rekurrentes Salienztransformationss Netzwerk: Integration von mehrstufigen visuellen Hinweisen für die Segmentierung kleiner Organe

Ziel unseres Ansatzes ist es, kleine Organe (z.B. die Bauchspeicheldrüse) aus abdominellen CT-Bildern zu segmentieren. Da das Zielobjekt oft nur einen relativ kleinen Bereich des Eingabebilds einnimmt, können tiefgreifende neuronale Netze leicht durch den komplexen und variablen Hintergrund verwirrt werden. Um dies zu mildern, schlugen Forscher einen grob-zu-feinen Ansatz vor, der die Vorhersage aus der ersten (grob) Stufe verwendet, um eine kleinere Eingabezone für die zweite (fein) Stufe zu definieren. Trotz seiner Effektivität behandelte dieser Algorithmus die beiden Stufen getrennt voneinander, was eine Optimierung einer globalen Energiefunktion verhinderte und seine Fähigkeit einschränkte, mehrstufige visuelle Hinweise zu integrieren. Das Fehlen kontextueller Informationen führte zu unbefriedigender Konvergenz in den Iterationen und dazu, dass die feine Stufe manchmal sogar eine geringere Segmentierungsgenauigkeit erzielte als die grobe Stufe.In diesem Artikel stellen wir ein rekursives Salienztransformationss Netzwerk (Recurrent Saliency Transformation Network) vor. Die wesentliche Innovation besteht in einem Modul zur Salienztransformation, das die Segmentierungs-Wahrscheinlichkeitskarte aus der vorherigen Iteration wiederholt in räumliche Gewichte umwandelt und diese Gewichte auf die aktuelle Iteration anwendet. Dies bietet uns zwei Vorteile: Im Training ermöglicht es eine gemeinsame Optimierung über die tiefen Netze, die mit verschiedenen Eingabeebenen arbeiten. Im Test verbreitet es mehrstufige visuelle Informationen über alle Iterationen hinweg, um die Segmentierungs-Genauigkeit zu verbessern. Experimente mit dem NIH-Pankreas-Segmentierungsdatensatz zeigen eine Stand-der-Technik-Genauigkeit, die im Durchschnitt um über 2% besser ist als der bisher beste Ansatz. Auch bei der Segmentierung mehrerer kleiner Organe in einem größeren Datensatz, den wir selbst gesammelt haben, wurden viel höhere Genauigkeiten gemeldet. Darüber hinaus zeigte unser Ansatz bessere Konvergenzeigenschaften, was ihn in der Praxis effizienter und zuverlässiger macht.