DCSAU-Net: Ein tieferes und kompakteres Split-Attention U-Net für die medizinische Bildsegmentierung

Die tiefen Lernarchitektur mit einem Faltungsneuralen Netzwerk (CNN) hat in der Computer Vision hervorragende Erfolge erzielt. Dabei stellt U-Net, eine durch CNN strukturierte Encoder-Decoder-Architektur, einen bedeutenden Durchbruch in der Segmentierung biomedizinischer Bilder dar und wird bereits in einer Vielzahl praktischer Anwendungen eingesetzt. Allerdings ermöglicht die gleichartige Gestaltung jeder Downsampling-Schicht im Encoder-Teil sowie die einfache Stapelung von Faltungsschichten U-Net nicht, aus unterschiedlichen Tiefen ausreichend informative Merkmale zu extrahieren. Die wachsende Komplexität medizinischer Bilder stellt neue Herausforderungen für bestehende Methoden dar. In diesem Artikel präsentieren wir ein tieferes und kompakteres Split-Attention-U-Form-Netzwerk (DCSAU-Net), das niedrig- und hochlevel-semantische Informationen effizient nutzt, basierend auf zwei neuen Architekturen: Primärmerkmalskonservierung und kompakter Split-Attention-Block. Wir evaluieren das vorgeschlagene Modell anhand der Datensätze CVC-ClinicDB, 2018 Data Science Bowl, ISIC-2018 und SegPC-2021. Die Ergebnisse zeigen, dass DCSAU-Net im Vergleich zu anderen state-of-the-art (SOTA)-Methoden eine bessere Leistung hinsichtlich des mittleren Intersection over Union (mIoU) und der F1-Score erzielt. Besonders hervorzuheben ist, dass das vorgeschlagene Modell exzellente Segmentierungsergebnisse auch bei anspruchsvollen Bildern liefert. Der Quellcode für unsere Arbeit sowie weitere technische Details sind unter https://github.com/xq141839/DCSAU-Net verfügbar.