17일 전

3D 의료 이미지 분석을 위한 스윈 트랜스포머의 자기지도 학습 전훈련

Yucheng Tang, Dong Yang, Wenqi Li, Holger Roth, Bennett Landman, Daguang Xu, Vishwesh Nath, Ali Hatamizadeh
3D 의료 이미지 분석을 위한 스윈 트랜스포머의 자기지도 학습 전훈련
초록

비전 트랜스포머(Vision Transformers, ViT)는 전역 및 국부적 표현의 자기지도 학습에서 뛰어난 성능을 보이며, 이를 하류 응용 분야에 전이할 수 있는 가능성을 보여주었다. 이러한 성과에 영감을 받아, 의료 영상 분석에 적합한 맞춤형 대리 과제를 갖춘 새로운 자기지도 학습 프레임워크를 제안한다. 구체적으로 다음과 같은 내용을 제안한다: (i) 자기지도 사전 훈련을 위한 계층적 인코더를 갖춘 새로운 3차원 트랜스포머 기반 모델인 Swin UNEt TRansformers(Swin UNETR); (ii) 인간 해부학적 구조의 내재된 패턴을 학습하기 위해 특화된 대리 과제. 제안된 모델이 다양한 신체 장기의 5,050개 공개 CT 영상에서 성공적으로 사전 훈련되었음을 입증하였다. 본 연구의 효과성은 Beyond the Cranial Vault(BTCV) 분할 챌린지(13개 복부 장기) 및 Medical Segmentation Decathlon(MSD) 데이터셋의 분할 과제에서 사전 훈련된 모델을 미세 조정(fine-tuning)함으로써 검증되었다. 본 모델은 현재 MSD 및 BTCV 데이터셋의 공개 테스트 리더보드에서 각각 최상위 성능(1위)을 기록하고 있다. 코드: https://monai.io/research/swin-unetr