Command Palette
Search for a command to run...
Aufarbeitung der Aufmerksamkeit mit hybrider dualer Pyramiden-Transformer-CNN für verallgemeinerte Segmentierung in der medizinischen Bildgebung
Aufarbeitung der Aufmerksamkeit mit hybrider dualer Pyramiden-Transformer-CNN für verallgemeinerte Segmentierung in der medizinischen Bildgebung
Fares Bougourzi Fadi Dornaika Abdelmalik Taleb-Ahmed Vinh Truong Hoang
Zusammenfassung
Angeregt durch den Erfolg von Transformers in der Computer Vision werden Transformers zunehmend für die Segmentierung medizinischer Bilder untersucht. Allerdings basieren die meisten Transformer-Architekturen auf neueren Transformer-Strukturen als Encoder oder als paralleler Encoder neben einem CNN-Encoder. In diesem Artikel stellen wir eine neuartige hybride CNN-Transformer-Segmentierarchitektur (PAG-TransYnet) vor, die gezielt darauf abzielt, einen leistungsfähigen CNN-Transformer-Encoder effizient zu konstruieren. Unser Ansatz nutzt Aufmerksamkeitsgatter innerhalb eines dualen Pyramiden-hybriden Encoders. Die Beiträge dieser Methode lassen sich in drei zentrale Aspekte zusammenfassen: (i) die Nutzung einer Pyramiden-Eingabe zur Hervorhebung markanter Merkmale auf unterschiedlichen Skalen, (ii) die Integration eines PVT-Transformers zur Erfassung von langreichweitigen Abhängigkeiten über verschiedene Auflösungen hinweg und (iii) die Implementierung eines Dual-Attention-Gate-Mechanismus zur effektiven Fusion markanter Merkmale aus den CNN- und Transformer-Zweigen. Durch eine umfassende Bewertung an verschiedenen Segmentierungsaufgaben – einschließlich der Segmentierung von Bauchorganen, Infektionsherden (COVID-19 und Knochenmetastasen) sowie mikroskopischer Gewebe (Drüsen und Zellen) – zeigt das vorgeschlagene Verfahren einen Stand der Technik (state-of-the-art)-Leistungsniveau und weist bemerkenswerte Verallgemeinerungsfähigkeiten auf. Diese Forschung stellt einen bedeutenden Fortschritt dar, um die dringende Notwendigkeit effizienter und anpassungsfähiger Segmentierungslösungen in der medizinischen Bildanalyse zu adressieren.