nnFormer: Verschränkter Transformer für volumetrische Segmentierung

Der Transformer, das Modell der Wahl für die Verarbeitung natürlicher Sprache, hat die medizinische Bildgebung bisher nur wenig Aufmerksamkeit erfahren. Angesichts seiner Fähigkeit, langfristige Abhängigkeiten auszunutzen, erscheint der Transformer vielversprechend, um bei nicht-standardmäßigen neuronalen Netzen mit Faltungen (convolutional neural networks) deren inhärente Einschränkungen hinsichtlich des räumlichen induktiven Bias zu überwinden. Doch die meisten kürzlich vorgeschlagenen Transformer-basierten Segmentierungsansätze behandeln Transformer lediglich als unterstützende Module, um globale Kontextinformationen in konvolutionale Darstellungen einzubetten. Um dieses Problem anzugehen, stellen wir nnFormer vor – einen 3D-Transformer für die Segmentierung volumetrischer medizinischer Bilder. nnFormer nutzt nicht nur die Kombination aus abwechselnden Faltungs- und Selbst-Attention-Operationen, sondern führt auch lokale und globale volumenbasierte Selbst-Attention-Mechanismen ein, um volumenbasierte Darstellungen zu lernen. Darüber hinaus schlagen wir vor, Skip Attention anstelle der traditionellen Verkettungs- oder Summierungsoperationen in Skip-Verbindungen innerhalb einer U-Net-ähnlichen Architektur einzusetzen. Experimente zeigen, dass nnFormer auf drei öffentlichen Datensätzen deutlich gegenüber früheren Transformer-basierten Ansätzen abschneidet. Im Vergleich zu nnUNet erzielt nnFormer signifikant niedrigere HD95-Werte bei vergleichbaren DSC-Ergebnissen. Zudem zeigen wir, dass nnFormer und nnUNet sich in der Modellensammlung (model ensembling) hochkomplementär verhalten.