MIST: 컨볼루션 주의 집합(Convolutional Attention Mixing, CAM) 디코더를 갖춘 의료 영상 세그멘테이션 트랜스포머

의료 영상 세그멘테이션에 널리 사용되며 높은 잠재력을 지닌 딥러닝 접근법 중 하나는 트랜스포머이다. 이는 자기 주의(self-attention)를 활용하여 픽셀 간의 장거리 의존성을 효과적으로 포착할 수 있기 때문이다. 비록 의료 영상 세그멘테이션 분야에서 성공을 거두었지만, 트랜스포머는 다중 모달 차원에서 픽셀의 국소적 맥락을 포착하는 데 한계를 지닌다. 이러한 문제를 해결하기 위해 우리는 새로운 컨볼루션 주의 혼합(Convolutional Attention Mixing, CAM) 디코더를 도입한 의료 영상 세그멘테이션 트랜스포머(Medical Image Segmentation Transformer, MIST)를 제안한다. MIST는 두 가지 주요 구성 요소로 이루어져 있다. 첫째, 사전 훈련된 다축 시각 트랜스포머(Multi-axis Vision Transformer, MaxViT)를 인코더로 사용하며, 둘째, 인코딩된 특징 표현을 CAM 디코더를 통해 전달하여 영상 세그멘테이션을 수행한다. CAM 디코더 내부에서는 다중 헤드 자기 주의, 공간 주의, 그리고 스퀴즈 앤 익사이트션(Squeeze-and-Excitation) 주의 모듈을 결합한 주의 혼합기(attention-mixer)를 도입하여 모든 공간 차원에서 장거리 의존성을 효과적으로 포착한다. 또한, 공간 정보의 강화를 위해 깊은 컨볼루션을 특징 추출에, 얕은 컨볼루션을 수용 영역 확장에 각각 활용한다. 다양한 네트워크 단계에서 추출된 저수준과 고수준 특징을 스케이프 연결(skip connections)을 통해 통합함으로써 MIST는 불필요한 정보를 효과적으로 억제할 수 있다. 실험 결과, ACDC 및 Synapse 데이터셋에서 MIST는 의료 영상 세그멘테이션에 특화된 최신 기술 모델들을 모두 능가함을 확인하였다. 또한, 계층적 트랜스포머에 CAM 디코더를 추가함으로써 세그멘테이션 성능이 크게 향상됨을 입증하였다. 본 연구의 모델과 코드는 GitHub에서 공개되어 있으며 누구나 접근 가능하다.