ViT-V-Net: Vision Transformer für die unüberwachte volumetrische medizinische Bildregistrierung

In den letzten zehn Jahren haben herkömmliche neuronale Netze (ConvNets) die Dominanz in einer Vielzahl medizinischer Bildgebungsaufgaben erlangt und state-of-the-art-Leistungen erzielt. Dennoch sind die Leistungen von ConvNets weiterhin durch ein Fehlen eines tiefen Verständnisses für langreichweitige räumliche Beziehungen innerhalb eines Bildes eingeschränkt. Der kürzlich vorgeschlagene Vision Transformer (ViT) für die Bildklassifikation basiert auf einem rein selbst-attention-basierten Modell, das langreichweitige räumliche Beziehungen erlernt, um sich auf relevante Bildbereiche zu konzentrieren. Dennoch legt ViT aufgrund der aufeinanderfolgenden Downsamplings verstärkt auf niedrigauflösende Merkmale Wert, wodurch detaillierte Lokalisationsinformationen verloren gehen und die Anwendung für die Bildregistrierung erschwert wird. Kürzlich wurden mehrere auf ViT basierende Methoden zur Bildsegmentierung mit ConvNets kombiniert, um die Wiederherstellung detaillierter Lokalisationsinformationen zu verbessern. Inspiriert von diesen Ansätzen präsentieren wir ViT-V-Net, ein Architekturkonzept, das ViT und ConvNet verbindet, um volumetrische medizinische Bildregistrierung zu ermöglichen. Die hier vorgestellten experimentellen Ergebnisse zeigen, dass die vorgeschlagene Architektur eine überlegene Leistung gegenüber mehreren führenden Registrierungsmethoden erzielt.