QTSeg: Ein Abfrage-Token-basierter Dual-Mix-Aufmerksamkeitsrahmen mit mehrstufiger Merkmalsverteilung für die Segmentierung medizinischer Bilder

Die Segmentierung medizinischer Bilder spielt eine entscheidende Rolle bei der Unterstützung von Gesundheitsfachkräften bei genauen Diagnosen und ermöglicht automatisierte diagnostische Prozesse. Traditionelle Faltungsschicht-Neuronale Netze (CNNs) haben oft Schwierigkeiten, langreichweitige Abhängigkeiten zu erfassen, während transformerbasierte Architekturen, trotz ihrer Effektivität, mit erhöhter rechnerischer Komplexität einhergehen. Kürzliche Bemühungen konzentrierten sich darauf, CNNs und Transformer zu kombinieren, um Leistung und Effizienz auszugleichen. Bestehende Ansätze stoßen jedoch weiterhin an Grenzen, wenn es darum geht, hohe Segmentierungsgenauigkeit zu erreichen und gleichzeitig niedrige rechnerische Kosten zu gewährleisten. Zudem nutzen viele Methoden die Fähigkeit des CNN-Encoders zur Erfassung lokaler räumlicher Informationen unterbewusst und konzentrieren sich hauptsächlich auf die Milderung von Problemen mit langreichweitigen Abhängigkeiten.Um diese Einschränkungen zu überwinden, schlagen wir QTSeg vor, eine neuartige Architektur für die Segmentierung medizinischer Bilder, die lokale und globale Informationen effektiv integriert. QTSeg verfügt über einen Dual-Mix-Aufmerksamkeitsdecoder, der durch folgende Merkmale die Segmentierungslieferung verbessern soll: (1) einen Cross-Aufmerksamkeitsmechanismus zur besseren Ausrichtung von Merkmalen, (2) ein räumliches Aufmerksamkeitsmodul zur Erfassung langreichweitiger Abhängigkeiten und (3) einen Kanalaufmerksamkeitsblock zum Lernen von interkanalischen Beziehungen. Darüber hinaus führen wir ein Modul zur multilevel-Merkmalverteilung ein, das die Featurepropagation zwischen Encoder und Decoder adaptiv ausbalanciert und so die Leistung weiter steigert.Ausführliche Experimente auf fünf öffentlich zugänglichen Datensätzen mit verschiedenen Segmentierungsaufgaben – einschließlich Läsionen-, Polypen-, Brustkrebs-, Zell- und Retina-Gefäßsegmentierung – zeigen, dass QTSeg mehrere Evaluationsmetriken übertreffen kann und dabei niedrigere rechnerische Kosten aufweist. Unsere Implementierung ist unter folgendem Link abrufbar: https://github.com/tpnam0901/QTSeg (v1.0.0).