HyperAIHyperAI
vor 17 Tagen

TransUNet: Transformers machen starke Encoder für die medizinische Bildsegmentierung

Jieneng Chen, Yongyi Lu, Qihang Yu, Xiangde Luo, Ehsan Adeli, Yan Wang, Le Lu, Alan L. Yuille, Yuyin Zhou
TransUNet: Transformers machen starke Encoder für die medizinische Bildsegmentierung
Abstract

Die Segmentierung medizinischer Bilder ist eine wesentliche Voraussetzung für die Entwicklung von Gesundheitssystemen, insbesondere für die Diagnose von Erkrankungen und die Planung von Behandlungen. Bei verschiedenen Aufgaben der medizinischen Bildsegmentierung hat sich die u-förmige Architektur, auch bekannt als U-Net, als de-facto-Standard etabliert und erzielte beeindruckende Erfolge. Aufgrund der inhärenten Lokalität von Faltungsoperationen zeigt U-Net jedoch allgemein Grenzen bei der expliziten Modellierung von Langstrecken-Abhängigkeiten. Transformers, ursprünglich für sequenzbasierte Vorhersagen konzipiert, haben sich als alternative Architekturen mit nativen globalen Selbst-Attention-Mechanismen etabliert, können jedoch aufgrund fehlender niedrigstufiger Details eine eingeschränkte Lokalisierungsfähigkeit aufweisen. In diesem Artikel stellen wir TransUNet vor, eine Architektur, die sowohl die Stärken von Transformers als auch von U-Net vereint und somit eine starke Alternative für die Segmentierung medizinischer Bilder darstellt. Einerseits kodiert der Transformer tokenisierte Bildpatches aus einem Faltungsneuronalen Netzwerk (CNN)-Feature-Map als Eingabesequenz, um globale Kontextinformationen zu extrahieren. Andererseits dekodiert der Decoder die kodierten Merkmale, die anschließend mit hochaufgelösten CNN-Feature-Maps kombiniert werden, um eine präzise Lokalisierung zu ermöglichen. Wir argumentieren, dass Transformers als starke Encoder für Aufgaben der medizinischen Bildsegmentierung dienen können, insbesondere wenn sie in Kombination mit U-Net eingesetzt werden, um feinere Details durch die Wiederherstellung lokalisierter räumlicher Informationen zu verbessern. TransUNet erreicht bei verschiedenen medizinischen Anwendungen – darunter die Segmentierung mehrerer Organe und die kardiale Segmentierung – überlegene Ergebnisse im Vergleich zu mehreren konkurrierenden Methoden. Der Quellcode und die Modelle sind unter https://github.com/Beckschen/TransUNet verfügbar.