TransBTS: Multimodale Segmentierung von Hirntumoren mittels Transformer

Transformer, die durch Selbst-Attention-Mechanismen von der Modellierung globaler (langreichweiten) Informationen profitieren können, haben in jüngster Zeit in der natürlichen Sprachverarbeitung und der 2D-Bildklassifikation große Erfolge erzielt. Für dichte Vorhersageaufgaben, insbesondere für die 3D-medizinische Bildsegmentierung, sind jedoch sowohl lokale als auch globale Merkmale von entscheidender Bedeutung. In diesem Artikel erschließen wir erstmals den Einsatz von Transformer in einem 3D-CNN für die Segmentierung von MRT-Brain-Tumoren und stellen ein neuartiges Netzwerk namens TransBTS auf Basis einer Encoder-Decoder-Architektur vor. Um lokale 3D-Kontextinformationen zu erfassen, nutzt der Encoder zunächst 3D-CNNs zur Extraktion volumetrischer räumlicher Merkmalskarten. Gleichzeitig werden diese Merkmalskarten sorgfältig umgestaltet, um Tokens zu generieren, die anschließend in den Transformer zur Modellierung globaler Merkmale eingespeist werden. Der Decoder nutzt die durch den Transformer eingebetteten Merkmale und führt eine schrittweise Aufwärtsskalierung durch, um die detaillierte Segmentierungskarte vorherzusagen. Umfangreiche experimentelle Ergebnisse auf den Datensätzen BraTS 2019 und 2020 zeigen, dass TransBTS Ergebnisse erzielt, die mit oder sogar über denen bisheriger State-of-the-Art-3D-Methoden für die Segmentierung von Hirntumoren in 3D-MRT-Aufnahmen liegen. Der Quellcode ist unter https://github.com/Wenxuan-1119/TransBTS verfügbar.