Räumliche Aggregation von holistisch verschachtelten Faltungsneuralnetzen für die automatische Lokalisierung und Segmentierung des Pankreas

Die genaue und automatische Segmentierung von Organen aus 3D-radiologischen Bildern ist ein wichtiges, aber herausforderndes Problem für die medizinische Bildanalyse. Insbesondere zeigt der Bauchspeicheldrüsen eine sehr hohe interindividuelle anatomische Variabilität sowohl in Form als auch in Volumen. In dieser Arbeit präsentieren wir ein automatisiertes System zur Verwendung von 3D-Computertomographie (CT)-Volumina durch einen zweistufigen kaskadierten Ansatz: Lokalisierung und Segmentierung der Bauchspeicheldrüse. Im ersten Schritt lokalisieren wir die Bauchspeicheldrüse im gesamten 3D-CT-Schnittbild und liefern eine zuverlässige Begrenzungsbox für den darauffolgenden, feineren Segmentierungsschritt. Wir führen einen vollständig tiefe-Lernansatz ein, der auf einer effizienten Anwendung holistisch-verschachtelter Faltungsnetze (HNNs) auf die drei orthogonale Axialebene, Sagittalebene und Koronalebene basiert. Die resultierenden HNN-Pixelwahrscheinlichkeitskarten werden dann mittels Pooling zusammengeführt, um eine dreidimensionale Begrenzungsbox der Bauchspeicheldrüse zu erzeugen, die das Recall maximiert. Wir zeigen, dass unser eingeführter Lokalisator sowohl einem konventionellen Nicht-Tief-Lernverfahren als auch einem jüngeren hybriden Ansatz überlegen ist, der auf der räumlichen Aggregation von Superpixeln mit Random-Forest-Klassifikation beruht. Der zweite Schritt, die Segmentierung, erfolgt innerhalb der berechneten Begrenzungsbox und integriert semantische Mittelstufenhinweise tiefgelernter Organinnen- und -randkarten, die durch zwei zusätzliche und getrennte Realisierungen von HNNs gewonnen werden. Durch die Integration dieser beiden Mittelstufenhinweise ist unsere Methode in der Lage, randtreue Pixelklassifikationskarten zu generieren, die zur endgültigen Segmentierung der Bauchspeicheldrüse führen. Eine quantitative Bewertung wurde anhand eines öffentlich zugänglichen Datensatzes mit 82 Patienten-CT-Bildern unter Verwendung einer 4-fach Kreuzvalidierung (CV) durchgeführt. Wir erreichen einen Dice-Ähnlichkeitskoeffizienten (DSC) von 81,27±6,27 % in der Validierung, was signifikant besser ist als frühere Stand-of-the-Art-Methoden, die jeweils DSC-Werte von 71,80±10,70 % und 78,01±8,20 % melden, ebenfalls unter Verwendung des gleichen Datensatzes.