HyperAIHyperAI
vor 17 Tagen

ResViT: Residuelle Vision Transformers für die multimodale medizinische Bildsynthese

Onat Dalmaz, Mahmut Yurt, Tolga Çukur
ResViT: Residuelle Vision Transformers für die multimodale medizinische Bildsynthese
Abstract

Generative adversariale Modelle mit Convolutional Neural Network (CNN)-Backbones sind in letzter Zeit als State-of-the-Art in zahlreichen Aufgaben der medizinischen Bildsynthese etabliert worden. Allerdings sind CNNs darauf ausgelegt, lokale Verarbeitung mit kompakten Filtern durchzuführen, wodurch ihre induktive Vorstellung die Lernfähigkeit kontextueller Merkmale beeinträchtigt. In dieser Arbeit stellen wir einen neuartigen generativen adversarialen Ansatz für die medizinische Bildsynthese, namens ResViT, vor, der die kontextsensitive Empfindlichkeit von Vision Transformers mit der Präzision von Faltungsoperatoren und der Realitätsnähe adversarialer Lernverfahren verbindet. Der Generator von ResViT basiert auf einem zentralen Bottleneck, der aus neuartigen aggregierten residualen Transformer-(ART)-Blöcken besteht, die residualer Faltung und Transformer-Module synergistisch kombinieren. Die residualen Verbindungen innerhalb der ART-Blöcke fördern die Vielfalt der erfassten Darstellungen, während ein Kanal-Kompressionsmodul informationsrelevante Merkmale verdichtet. Eine Gewichtsteilungsstrategie wird innerhalb der ART-Blöcke eingeführt, um die rechnerische Belastung zu verringern. Zudem wird eine einheitliche Implementierung vorgestellt, die die Notwendigkeit der Neukonstruktion separater Synthesemodelle für unterschiedliche Quelle-Ziel-Modalitätskonfigurationen beseitigt. Umfassende Demonstrationen werden für die Synthese fehlender Sequenzen in multi-kontrastiven MRT-Bildern sowie für die Generierung von CT-Bildern aus MRT-Daten durchgeführt. Unsere Ergebnisse zeigen, dass ResViT gegenüber konkurrierenden CNN- und Transformer-basierten Methoden sowohl in qualitativen Beobachtungen als auch in quantitativen Metriken überlegen ist.