MISSFormer: 효과적인 의료 영상 분할을 위한 트랜스포머

CNN 기반 방법은 의료 영상 세그멘테이션 분야에서 놀라운 성과를 거두었으나, 합성곱 연산의 본질적인 국소성으로 인해 장거리 의존성을 포착하지 못하는 한계가 있다. 반면, Transformer 기반 방법은 장거리 의존성 모델링 능력과 뛰어난 성능으로 인해 최근 시각 작업에서 인기를 끌고 있다. 그러나 이러한 방법은 국소적 맥락을 효과적으로 모델링하지 못하는 단점이 있다. 본 논문에서는 의료 영상 세그멘테이션을 사례로 제시하며, MISSFormer(Medical Image Segmentation tranSFormer)이라는 효과적이고 강력한 신경망 아키텍처를 제안한다. MISSFormer은 계층적 인코더-디코더 구조를 기반으로 하며, 두 가지 독창적인 설계를 포함한다. 첫째, 제안한 강화된 Transformer 블록(Enhanced Transformer Block)을 활용해 피드포워드 네트워크를 재설계함으로써, 장거리 의존성을 강화하고 국소적 맥락을 보완함으로써 특징 표현의 구분 능력을 향상시켰다. 둘째, 기존 방법이 전역 정보만을 모델링하는 것과 달리, 제안한 강화된 Transformer 컨텍스트 브리지(Enhanced Transformer Context Bridge)는 계층적 Transformer 인코더가 생성한 다중 스케일 특징에서 장거리 의존성과 국소적 맥락을 동시에 추출한다. 이러한 두 가지 설계에 기반하여 MISSFormer은 의료 영상 세그멘테이션에서 더 구분력 있는 의존성과 맥락을 포착하는 데 뛰어난 능력을 보였다. 다기관 및 심장 세그멘테이션 작업에 대한 실험 결과는 MISSFormer의 우수성, 효과성 및 강건성을 입증하였으며, ImageNet에서 사전 훈련된 최첨단 기법들을 초월하는 성능을 보였다. 특히, MISSFormer은 초기부터 훈련된 경우에도 기존 최고 수준의 방법들을 능가하는 결과를 보였다. 본 논문의 핵심 설계는 다른 시각 세그멘테이션 작업에도 일반화 가능하다. 코드는 GitHub에 공개되었으며, 아래 링크에서 확인할 수 있다: https://github.com/ZhifangDeng/MISSFormer