Medizinische Bildsegmentierung mit Squeeze-and-Expansion-Transformern

Die Segmentierung medizinischer Bilder ist für die computergestützte Diagnose von großer Bedeutung. Eine gute Segmentierung erfordert, dass das Modell sowohl den Gesamteindruck als auch die Feinheiten gleichzeitig erfassen kann, d.h., Bildmerkmale zu lernen, die einen großen Kontext berücksichtigen und gleichzeitig hohe räumliche Auflösungen aufrechterhalten. Um dieses Ziel zu erreichen, verwenden die am häufigsten eingesetzten Methoden – U-Net und dessen Varianten – multiskalige Merkmale, die extrahiert und fusioniert werden. Dennoch haben die fusionierten Merkmale immer noch kleine "effektive Rezeptivfelder" (effective receptive fields) mit einem Fokus auf lokale Bildhinweise, was ihre Leistung einschränkt. In dieser Arbeit schlagen wir Segtran vor, ein alternatives Segmentierungsframework basierend auf Transformatoren, welche unbeschränkte "effektive Rezeptivfelder" (effective receptive fields) selbst bei hohen Merkmalsauflösungen bieten. Das Kernstück von Segtran ist ein neuartiger Squeeze-and-Expansion Transformer: Ein komprimierter Aufmerksamkeitsblock reguliert die Selbstaufmerksamkeit der Transformatoren, während ein Expansionsblock vielfältige Darstellungen lernt. Zudem schlagen wir eine neue Positionscodierungsmethode für Transformatoren vor, die einen Kontinuitätseinsatz für Bilder vorgibt. Experimente wurden an 2D- und 3D-Segmentierungsaufgaben medizinischer Bilder durchgeführt: Optische Scheibe/Kammer-Segmentierung in Fundusbildern (REFUGE'20 Challenge), Polypensegmentierung in Kolonoskopiebildern und Hirntumorsegmentierung in MRT-Aufnahmen (BraTS'19 Challenge). Verglichen mit repräsentativen bestehenden Methoden zeigte Segtran stets die höchste Segmentierungsgenauigkeit und gute generalisierende Fähigkeiten über verschiedene Domains hinweg. Der Quellcode von Segtran ist unter https://github.com/askerlee/segtran veröffentlicht.