Revisiting 3D Context Modeling mit überwachtem Vortraining für die universelle Läsionsdetektion in CT-Schnitten

Die universelle Erkennung von Läsionen in Computertomografien (CT) ist für eine umfassende Krankheitsscreening wichtig. Da jede Läsion in mehreren benachbarten Schnitten auftreten kann, ist die Modellierung des 3D-Kontextes von großer Bedeutung für die Entwicklung automatisierter Läsionserkennungsalgorithmen. In dieser Arbeit schlagen wir ein modifiziertes Pseudo-3D-Feature-Pyramid-Netzwerk (MP3D FPN) vor, das tiefgangweise separierte Faltungsfilter und ein Gruppentransformationsmodul (GTM) verwendet, um effizient 3D-kontextverstärkte 2D-Features für die universelle Läsionserkennung in CT-Schnitten zu extrahieren. Um eine schnellere Konvergenz zu ermöglichen, wird eine neuartige Methode zur Vortrainierung von 3D-Netzwerken abgeleitet, die ausschließlich große 2D-Objekterkennungsdatensätze aus dem Bereich natürlicher Bilder verwendet. Wir zeigen, dass mit der neuen Vortrainierungsmethode das vorgeschlagene MP3D FPN auf dem DeepLesion-Datensatz (absolute Verbesserung der Sensitivität bei [email protected] um 3,48 %) Spitzenleistungen erzielt und die Basismethode, die 2D-Faltung zur Modellierung des 3D-Kontextes verwendet, signifikant übertrifft – bis zu 6,06 % (bei [email protected]). Darüber hinaus können die vorgeschlagenen 3D-vortrainierten Gewichte potenziell dazu beitragen, die Leistungsfähigkeit anderer 3D-medizinischer Bildanalyseaufgaben zu steigern.