AgileFormer: Räumlich agiler Transformer UNet für die Segmentierung medizinischer Bilder

In den vergangenen Jahrzehnten haben tiefe neuronale Netze, insbesondere Faltungsneuronale Netze (CNNs), in einer Vielzahl von medizinischen Bildsegmentierungsaufgaben Spitzenleistungen erzielt. Kürzlich hat die Einführung des Vision Transformers (ViT) das Feld der tiefen Segmentierungsmodelle erheblich verändert. Die Aufmerksamkeit richtet sich zunehmend auf ViTs, getrieben von ihrer ausgezeichneten Leistung und Skalierbarkeit. Dennoch argumentieren wir, dass das aktuelle Design von Vision Transformer-basierten UNet-Segmentierungsmodellen (ViT-UNet) möglicherweise nicht effektiv mit der heterogenen Erscheinung (z.B. unterschiedliche Formen und Größen) der Objekte von Interesse in medizinischen Bildsegmentierungsaufgaben umgehen kann. Um dieser Herausforderung zu begegnen, präsentieren wir einen strukturierten Ansatz zur Einführung räumlich dynamischer Komponenten in das ViT-UNet. Diese Anpassung ermöglicht es dem Modell, Merkmale von Zielobjekten mit vielfältigen Erscheinungen effektiv zu erfassen. Dies wird durch drei Hauptkomponenten erreicht: \textbf{(i)} deformierbare Patch-Embedding; \textbf{(ii)} räumlich dynamische Multi-Head Attention; \textbf{(iii)} deformierbare Positionscodierung. Diese Komponenten wurden in eine neuartige Architektur integriert, die als AgileFormer bezeichnet wird. AgileFormer ist ein räumlich agiles ViT-UNet, das für die medizinische Bildsegmentierung entwickelt wurde. Experimente anhand dreier Segmentierungsaufgaben mit öffentlich zugänglichen Datensätzen zeigten die Effektivität der vorgeschlagenen Methode. Der Code ist unter \href{https://github.com/sotiraslab/AgileFormer}{https://github.com/sotiraslab/AgileFormer} verfügbar.