의료 영상 세그멘테이션을 위한 풀 컨볼루션 트랜스포머

우리는 다양한 모달리티의 의료 영상을 세그멘테이션할 수 있는 새로운 트랜스포머 모델을 제안한다. 의료 영상 분석의 미세한 특성으로 인해, 기존 트랜스포머 모델의 적용은 여전히 초기 단계에 머물러 있다. UNet의 놀라운 성공은 세그멘테이션 작업의 미세한 특성을 정확히 이해할 수 있었기 때문이며, 이 능력은 현재 존재하는 트랜스포머 기반 모델들이 보유하고 있지 못하다. 이러한 한계를 극복하기 위해, 우리는 기존의 합성곱 신경망(Convolutional Neural Networks, CNNs)이 효과적인 이미지 표현을 학습할 수 있는 능력을 바탕으로 하되, 트랜스포머가 입력 데이터 내 장거리 의존성을 효과적으로 포착할 수 있는 특성을 결합한 '완전 합성곱 트랜스포머(Fully Convolutional Transformer, FCT)'를 제안한다. FCT는 의료 영상 분야에서 처음으로 완전 합성곱 구조를 갖춘 트랜스포머 모델이다. 이 모델은 두 단계로 입력을 처리한다. 첫 번째 단계에서는 입력 영상으로부터 장거리 의미적 의존성을 추출하는 데 집중하고, 두 번째 단계에서는 추출된 특징들로부터 계층적인 전역적 특성을 학습한다. FCT는 컴팩트하고 정확하며 강건하다. 실험 결과, 사전 훈련 없이도 다양한 모달리티의 의료 영상 세그멘테이션 데이터셋에서 기존의 모든 트랜스포머 아키텍처를 큰 차이로 앞서는 성능을 보였다. 특히 ACDC 데이터셋에서 경쟁 모델보다 1.3%, Synapse 데이터셋에서는 4.4%, Spleen 데이터셋에서는 1.2%, ISIC 2017 데이터셋에서는 1.1%의 DICE 지표에서 우수한 성능을 기록했으며, 파라미터 수는 최대 5배 적게 사용했다. 본 연구의 코드, 환경 설정 및 모델은 GitHub를 통해 공개될 예정이다.