MedSegDiff-V2: Diffusion-basierte medizinische Bildsegmentierung mit Transformer

Der Diffusions-Wahrscheinlichkeitsmodell (DPM) hat in letzter Zeit in der Computer Vision-Branche an Beliebtheit gewonnen, vor allem aufgrund seiner Anwendungen in der Bildgenerierung, wie beispielsweise Imagen, Latent Diffusion Models und Stable Diffusion, die beeindruckende Fähigkeiten demonstriert und breite Diskussionen innerhalb der Forschungsgemeinschaft ausgelöst haben. Neuere Untersuchungen haben zudem die Nützlichkeit von DPM im Bereich der medizinischen Bildanalyse aufgezeigt, was durch die hervorragende Leistung eines medizinischen Bildsegmentierungsmodells bei verschiedenen Aufgaben unterstrichen wird. Obwohl diese Modelle ursprünglich auf einer UNet-Architektur basierten, besteht ein erhebliches Potenzial zur Leistungssteigerung durch die Integration von Vision-Transformer-Mechanismen. Allerdings stellten wir fest, dass eine einfache Kombination beider Ansätze zu suboptimalen Ergebnissen führt. Um diese beiden modernsten Technologien effektiv für die medizinische Bildsegmentierung zu integrieren, schlagen wir einen neuartigen, auf Transformatoren basierenden Diffusionsansatz vor, den wir MedSegDiff-V2 nennen. Wir validieren die Wirksamkeit unseres Ansatzes an 20 Aufgaben der medizinischen Bildsegmentierung mit unterschiedlichen Bildmodalitäten. Durch umfassende Evaluation zeigt unsere Methode eine Überlegenheit gegenüber vorherigen State-of-the-Art-(SOTA)-Methoden. Der Quellcode ist unter https://github.com/KidsWithTokens/MedSegDiff verfügbar.