17일 전

SegFormer3D: 3D 의료 영상 분할을 위한 효율적인 Transformer

Shehan Perera, Pouyan Navard, Alper Yilmaz
SegFormer3D: 3D 의료 영상 분할을 위한 효율적인 Transformer
초록

비전 트랜스포머(Vision Transformers, ViTs) 기반 아키텍처의 도입은 3차원 의료 영상(MI) 세그멘테이션 분야에서 중요한 진전을 나타내며, 전통적인 합성곱 신경망(Convolutional Neural Network, CNN) 모델을 능가하는 글로벌 컨텍스트 이해 능력을 향상시킨다. 이 패러다임 전환은 3차원 세그멘테이션 성능을 크게 향상시켰지만, 최첨단 아키텍처들은 학습 및 배포를 위해 매우 크고 복잡한 구조와 대규모 컴퓨팅 자원을 요구한다. 게다가 의료 영상에서 흔히 발생하는 제한된 데이터셋 환경에서는 더 큰 모델이 일반화 능력과 수렴성 측면에서 어려움을 초래할 수 있다. 이러한 문제에 대응하고, 가벼운 모델이 3차원 의료 영상 분야에서 중요한 연구 방향임을 입증하기 위해, 본 연구에서는 다중 스케일 볼륨 특징 간의 어텐션을 계산하는 계층적 트랜스포머인 SegFormer3D를 제안한다. 또한 SegFormer3D는 복잡한 디코더 구조를 회피하고, 모든 MLP(Multi-Layer Perceptron) 기반 디코더를 사용하여 지역적 및 글로벌 어텐션 특징을 통합하여 높은 정확도의 세그멘테이션 마스크를 생성한다. 제안된 메모리 효율적인 트랜스포머는 대규모 모델의 성능 특성을 작고 효율적인 설계 안에서 유지한다. SegFormer3D는 현재 최첨단(SOTA) 모델 대비 파라미터 수가 33배 적고, GFLOPS(1초당 조작 수)가 13배 감소한 구조를 통해 3차원 의료 영상 세그멘테이션 분야의 딥러닝 접근을 민주화한다. 우리는 Synapse, BRaTs, ACDC 세 가지 널리 사용되는 데이터셋에서 현재 최첨단 모델들과의 비교를 통해 SegFormer3D의 경쟁력 있는 성능을 입증하였다. 코드: https://github.com/OSUPCVLab/SegFormer3D.git