TransUNet: Transformers는 의료 영상 세그멘테이션을 위한 강력한 인코더를 만든다

의료 영상 세그멘테이션은 질병 진단 및 치료 계획 수립을 위한 건강 관리 시스템 개발에 필수적인 전제 조건이다. 다양한 의료 영상 세그멘테이션 작업에서 U자형 아키텍처, 즉 U-Net이 사실상의 표준으로 자리 잡으며 놀라운 성과를 거두었다. 그러나 컨볼루션 연산의 본질적인 국소성 때문에 U-Net은 일반적으로 장거리 의존성(Long-range dependency)을 명시적으로 모델링하는 데 한계를 보인다. 반면, 시퀀스에서 시퀀스로의 예측을 위해 설계된 트랜스포머(Transformer)는 본질적인 글로벌 자기주의(Self-attention) 메커니즘을 갖춘 대안적인 아키텍처로 부상했으나, 저수준 세부 정보의 부족으로 인해 국소화 능력이 제한될 수 있다. 본 논문에서는 트랜스포머와 U-Net의 장점을 결합한 TransUNet을 제안한다. 이는 의료 영상 세그멘테이션에 있어 강력한 대안이 될 수 있다. 한편으로, 트랜스포머는 컨볼루션 신경망(CNN)의 특징 맵에서 토큰화된 이미지 패치를 입력 시퀀스로 인코딩하여 전역적인 맥락을 추출한다. 다른 한편으로, 인코딩된 특징은 디코더를 통해 업샘플링되며, 고해상도 CNN 특징 맵과 병합되어 정밀한 국소화를 가능하게 한다. 우리는 트랜스포머가 의료 영상 세그멘테이션 작업의 강력한 인코더로 활용될 수 있으며, U-Net과의 결합을 통해 국소적인 공간 정보를 회복함으로써 더 세밀한 세부 정보를 강화할 수 있다고 주장한다. TransUNet은 다기관 세그멘테이션과 심장 세그멘테이션을 포함한 다양한 의료 응용 분야에서 기존의 경쟁 방법들보다 뛰어난 성능을 달성하였다. 코드와 모델은 https://github.com/Beckschen/TransUNet 에서 공개되어 있다.