17일 전
3D 의료 이미지 분석을 위한 스윈 트랜스포머의 자기지도 학습 전훈련
Yucheng Tang, Dong Yang, Wenqi Li, Holger Roth, Bennett Landman, Daguang Xu, Vishwesh Nath, Ali Hatamizadeh

초록
비전 트랜스포머(Vision Transformers, ViT)는 전역 및 국부적 표현의 자기지도 학습에서 뛰어난 성능을 보이며, 이를 하류 응용 분야에 전이할 수 있는 가능성을 보여주었다. 이러한 성과에 영감을 받아, 의료 영상 분석에 적합한 맞춤형 대리 과제를 갖춘 새로운 자기지도 학습 프레임워크를 제안한다. 구체적으로 다음과 같은 내용을 제안한다: (i) 자기지도 사전 훈련을 위한 계층적 인코더를 갖춘 새로운 3차원 트랜스포머 기반 모델인 Swin UNEt TRansformers(Swin UNETR); (ii) 인간 해부학적 구조의 내재된 패턴을 학습하기 위해 특화된 대리 과제. 제안된 모델이 다양한 신체 장기의 5,050개 공개 CT 영상에서 성공적으로 사전 훈련되었음을 입증하였다. 본 연구의 효과성은 Beyond the Cranial Vault(BTCV) 분할 챌린지(13개 복부 장기) 및 Medical Segmentation Decathlon(MSD) 데이터셋의 분할 과제에서 사전 훈련된 모델을 미세 조정(fine-tuning)함으로써 검증되었다. 본 모델은 현재 MSD 및 BTCV 데이터셋의 공개 테스트 리더보드에서 각각 최상위 성능(1위)을 기록하고 있다. 코드: https://monai.io/research/swin-unetr