MetaFormer und CNN-Hybrid-Modell für die Polypen-Bildsegmentierung
Seitdem der Vision Transformer eine überlegene Leistung erzielte, sind transformerbasierte Methoden im Bereich der medizinischen Bildforschung dominierend geworden. Obwohl transformerbasierte Ansätze die inhärenten Probleme der Langstrecken-Abhängigkeit in herkömmlichen Convolutional Neural Network (CNN)-Methoden lösen konnten, erweisen sie sich als weniger effektiv bei der Erfassung lokaler Detailinformationen. In jüngster Zeit liegt der Fokus auf der robusten Kombination lokaler Details und semantischer Informationen. Um dieses Problem anzugehen, schlagen wir ein neuartiges hybrides Transformer-CNN-Netzwerk namens RAPUNet vor. Unser Ansatz verwendet MetaFormer als Transformer-Backbone und führt einen maßgeschneiderten konvolutionellen Block, RAPU (Residual and Atrous Convolution in Parallel Unit), ein, um lokale Merkmale zu verstärken und das Problem der Kombination lokaler und globaler Merkmale zu mildern. Wir evaluieren die Segmentierungsleistung von RAPUNet anhand gängiger Benchmark-Datensätze für Polypen-Segmentierung, darunter Kvasir-SEG, CVC-ClinicDB, CVC-ColonDB, EndoScene-CVC300 und ETIS-LaribPolypDB. Die experimentellen Ergebnisse zeigen, dass unser Modell im Hinblick auf den mittleren Dice-Koeffizienten und den mittleren IoU wettbewerbsfähige Leistung erzielt. Insbesondere übertrifft RAPUNet state-of-the-art-Methoden auf dem CVC-ClinicDB-Datensatz. Code verfügbar: https://github.com/hyunnamlee/RAPUNet.