Swin-Unet: 의료 영상 세그멘테이션을 위한 유사 Unet 구조의 순수 Transformer

최근 몇 년 동안 합성곱 신경망(Convolutional Neural Networks, CNNs)은 의료 영상 분석 분야에서 중요한 성과를 거두었다. 특히 U자형 아키텍처와 스위프 연결(skip-connections)을 기반으로 한 심층 신경망은 다양한 의료 영상 작업에 널리 활용되고 있다. 그러나 CNN은 합성곱 연산의 국소성(locality)으로 인해 전역적이고 장거리의 의미 정보 상호작용을 효과적으로 학습하지 못한다는 한계가 있다. 본 논문에서는 의료 영상 세분화를 위한 순수한 Transformer 기반의 U-Net 유사 아키텍처인 Swin-Unet을 제안한다. 이미지 패치를 토큰화하여, 스위프 연결을 갖춘 Transformer 기반의 U자형 인코더-디코더 아키텍처에 입력함으로써 지역-전역 의미 특징을 동시에 학습한다. 구체적으로, 계층적인 스위프 트랜스포머(Swin Transformer)를 활용한 시프트 윈도우(shifted windows) 구조를 인코더로 사용하여 맥락적 특징을 추출하고, 패치 확장 레이어(patch expanding layer)를 갖춘 대칭적인 스위프 트랜스포머 기반 디코더를 설계하여 특징 맵의 공간 해상도를 복원하는 상향 샘플링(up-sampling) 작업을 수행한다. 입력 및 출력에 대해 4배의 직접적인 하향 및 상향 샘플링을 수행하는 환경에서 다중 장기 및 심장 세분화 작업에 대한 실험 결과, 전면 합성곱 또는 트랜스포머와 합성곱의 복합 구조를 사용한 기존 방법들에 비해 순수한 Transformer 기반의 U자형 인코더-디코더 네트워크가 더 우수한 성능을 보였다. 코드 및 학습된 모델은 https://github.com/HuCaoFighting/Swin-Unet 에 공개될 예정이다.