DKMA-ULD: Domain Knowledge erweiterte Mehrkopf-Aufmerksamkeit basierte robuste universelle Läsionsdetektion

Die explizite Einbeziehung von datenspezifischem Domänenwissen in tiefere Netzwerke kann wichtige Hinweise für die Erkennung von Läsionen liefern und die Notwendigkeit vielfältiger heterogener Datensätze zur Lernrobustheit von Detektoren reduzieren. In dieser Arbeit nutzen wir das in Computertomografien (CT) enthaltene Domänenwissen und schlagen ein robustes universelles Läsionserkennungsnetzwerk (ULD) vor, das durch das Training auf einem einzelnen Datensatz, DeepLesion, Läsionen in allen Körpereingeweiden erkennen kann. Wir analysieren CT-Schnitte mit unterschiedlichen Intensitäten, die unter Verwendung heuristisch bestimmter Hounsfield-Einheiten (HU)-Fenster generiert werden, um verschiedene Organe einzeln hervorzuheben und diese als Eingaben dem tiefen Netzwerk zu übergeben. Die aus den mehrfach intensitätskalibrierten Bildern gewonnenen Merkmale werden mittels eines neuartigen konvolutionell erweiterten Mehrkopf-Selbst-Aufmerksamkeitsmoduls (convolution augmented multi-head self-attention module) fusioniert und anschließend an ein Region Proposal Network (RPN) weitergeleitet, um Läsionen zu detektieren. Zudem stellten wir fest, dass traditionelle Ankerboxen, die im RPN für natürliche Bilder verwendet werden, nicht geeignet sind für die in medizinischen Bildern häufig vorkommenden Läsionsgrößen. Deshalb schlagen wir vor, im RPN läsionspezifische Ankergrößen und -verhältnisse zu verwenden, um die Erkennungsleistung zu verbessern. Wir verwenden Selbstüberwachung (self-supervision), um die Gewichte unseres Netzwerks auf dem DeepLesion-Datensatz zu initialisieren und so das Domänenwissen weiter zu verinnerlichen. Unser vorgeschlagenes domänenwissensaugmentiertes Mehrkopf-Aufmerksamkeitsbasiertes Universelles Läsionserkennungsnetzwerk DMKA-ULD liefert verfeinerte und präzise Begrenzungsrahmen (bounding boxes) um Läsionen in verschiedenen Organen. Wir evaluieren die Effektivität unseres Netzwerks am öffentlich zugänglichen DeepLesion-Datensatz, der etwa 32.000 CT-Bilder mit annotierten Läsionen in allen Körpereingeweiden enthält. Die Ergebnisse zeigen, dass wir bestehende Stand-of-the-Art-Methoden übertreffen und eine Gesamtsensitivität von 87,16 % erreichen.请注意,这里“自我监督”被翻译为“Selbstüberwachung”,而“多头注意力模块”则被翻译为“Mehrkopf-Aufmerksamkeitsmodul”。这些术语在德语中是常用的对应翻译。如果有任何特定的偏好或需要进一步调整的地方,请告知。