Trans2Unet: Neuronale Fusion für die semantische Segmentierung von Zellen

Die Segmentierung von Zellenkernen stellt trotz ihrer zentralen Bedeutung für die histopathologische Bildanalyse weiterhin eine herausfordernde Aufgabe dar. Die Hauptursache hierfür liegt in der Existenz überlappender Bereiche, die die Trennung einzelner Kerne erheblich erschweren. In diesem Beitrag stellen wir eine neue zweigeteilte Architektur vor, die die Netzwerke Unet und TransUnet kombiniert, um die Aufgabe der Zellkernsegmentierung zu lösen. Die vorgeschlagene Architektur, benannt als Trans2Unet, leitet das Eingabebild zunächst in den Unet-Zweig weiter, bei dem jedoch die letzte Faltungs-Schicht entfernt wird. Dieser Zweig ermöglicht es dem Netzwerk, Merkmale aus verschiedenen räumlichen Regionen des Eingabebildes zu kombinieren und die interessierenden Bereiche präziser zu lokalisieren. Gleichzeitig wird das Eingabebild auch in den zweiten Zweig geleitet, den wir als TransUnet-Zweig bezeichnen. In diesem Zweig wird das Eingabebild in Bildpatches unterteilt. Durch die Integration des Vision Transformer (ViT) in die Architektur fungiert TransUnet als leistungsfähiger Encoder für medizinische Bildsegmentierungsaufgaben und verbessert die Bilddetails, indem er lokalisierte räumliche Informationen rekonstruiert. Um die Effizienz und Leistungsfähigkeit von Trans2Unet weiter zu steigern, schlagen wir vor, TransUnet mit einem rechen-effizienten Modul zu ergänzen, das als „Waterfall“ Atrous Spatial Pooling mit Skip-Connection (WASP-KC) bezeichnet wird und sich an dem Modul „Waterfall“ Atrous Spatial Pooling (WASP) orientiert. Experimentelle Ergebnisse auf dem Benchmark des Data Science Bowl 2018 belegen die Wirksamkeit und überlegene Leistungsfähigkeit der vorgeschlagenen Architektur im Vergleich zu vorherigen Segmentierungsmodellen.