HyperAIHyperAI
vor 17 Tagen

Selbstüberwachtes Vor-Training von Swin-Transformern für die 3D-medizinische Bildanalyse

Yucheng Tang, Dong Yang, Wenqi Li, Holger Roth, Bennett Landman, Daguang Xu, Vishwesh Nath, Ali Hatamizadeh
Selbstüberwachtes Vor-Training von Swin-Transformern für die 3D-medizinische Bildanalyse
Abstract

Vision Transformers (ViT) haben bei der selbstüberwachten Lernung globaler und lokaler Darstellungen hervorragende Leistungen gezeigt, die sich für nachgeschaltete Anwendungen übertragen lassen. Inspiriert durch diese Ergebnisse stellen wir einen neuartigen selbstüberwachten Lernframework mit maßgeschneiderten Proxy-Aufgaben für die medizinische Bildanalyse vor. Konkret schlagen wir vor: (i) ein neues 3D-Transformer-basiertes Modell, das Swin UNEt TRansformers (Swin UNETR) genannt wird, mit einem hierarchischen Encoder für die selbstüberwachte Vortrainierung; (ii) speziell angepasste Proxy-Aufgaben zur Erfassung der zugrundeliegenden Muster der menschlichen Anatomie. Wir zeigen die erfolgreiche Vortrainierung des vorgeschlagenen Modells anhand von 5.050 öffentlich verfügbaren Computertomographie-(CT-)Bildern verschiedener Körperteile. Die Wirksamkeit unseres Ansatzes wird durch die Feinabstimmung der vortrainierten Modelle am Beyond the Cranial Vault (BTCV)-Segmentierungs-Wettbewerb mit 13 Bauchorganen sowie an Segmentierungsaufgaben aus dem Medical Segmentation Decathlon (MSD)-Datensatz bestätigt. Unser Modell erreicht derzeit die führende Position (Platz 1) auf den öffentlichen Test-Leaderboards sowohl des MSD- als auch des BTCV-Datensatzes. Code: https://monai.io/research/swin-unetr

Selbstüberwachtes Vor-Training von Swin-Transformern für die 3D-medizinische Bildanalyse | Neueste Forschungsarbeiten | HyperAI