HyperAIHyperAI
vor 17 Tagen

Mehrskaliges hierarchisches Vision-Transformer-Modell mit kaskadiertem Aufmerksamkeitsdecodierungsansatz für die medizinische Bildsegmentierung

Md Mostafijur Rahman, Radu Marculescu
Mehrskaliges hierarchisches Vision-Transformer-Modell mit kaskadiertem Aufmerksamkeitsdecodierungsansatz für die medizinische Bildsegmentierung
Abstract

Transformers haben bei der medizinischen Bildsegmentierung erheblichen Erfolg gezeigt. Allerdings können Transformers aufgrund der zugrundeliegenden einheitlichen Skalen- Selbst-Attention (Self-Attention, SA)-Mechanismen eine begrenzte Verallgemeinerungsfähigkeit aufweisen. In diesem Artikel greifen wir dieses Problem an, indem wir einen neuen Backbone-Netzwerkansatz namens Multi-scale hiERarchical vIsion Transformer (MERIT) einführen, der die Verallgemeinerungsfähigkeit des Modells durch die Berechnung der Selbst-Attention auf mehreren Skalen verbessert. Zudem integrieren wir einen auf Aufmerksamkeit basierenden Decoder, den sogenannten Cascaded Attention Decoding (CASCADE), zur weiteren Verfeinerung der mehrstufigen Merkmale, die von MERIT generiert werden. Abschließend stellen wir eine effektive Methode zur Aggregation mehrstufiger Merkmalsverluste vor, die als MUTATION bezeichnet wird, um das Modelltraining durch implizites Ensembling zu optimieren. Unsere Experimente auf zwei weit verbreiteten Benchmarks für medizinische Bildsegmentierung (nämlich Synapse Multi-organ und ACDC) zeigen die überlegene Leistung von MERIT im Vergleich zu aktuellen State-of-the-Art-Methoden. Die MERIT-Architektur sowie die MUTATION-Verlustaggregation können für nachgeschaltete Aufgaben im Bereich medizinischer Bild- und semantischer Segmentierung genutzt werden.