
초록
의료 영상 분할 분야에서 트랜스포머는 큰 성공을 거두었다. 그러나 트랜스포머는 단일 스케일 자기주의(self-attention, SA) 메커니즘의 본질적 한계로 인해 일반화 능력이 제한될 수 있다. 본 논문에서는 다중 스케일 자기주의를 통해 SA를 다중 스케일에서 계산함으로써 모델의 일반화 능력을 향상시키는 다중 스케일 계층적 비전 트랜스포머(Multi-scale hiERarchical vIsion Transformer, MERIT) 백본 네트워크를 제안함으로써 이 문제를 해결한다. 또한 MERIT가 생성한 다단계 특징을 보다 정교하게 개선하기 위해 주의 기반 디코더인 연속형 주의 디코딩(Cascaded Attention Decoding, CASCADE)을 도입한다. 마지막으로, 암묵적 앙상블을 통한 효과적인 모델 학습을 위해 다단계 특징 혼합 손실 집계(Multi-stage feature mixing loss aggregation, MUTATION) 방법을 제안한다. 두 가지 널리 사용되는 의료 영상 분할 벤치마크(Synapse 다장기, ACDC)에서의 실험 결과를 통해 MERIT가 최신 기술 대비 우수한 성능을 보임을 입증하였다. 제안된 MERIT 아키텍처와 MUTATION 손실 집계 방법은 하류의 의료 영상 및 의미 분할 작업에 활용될 수 있다.