
초록
의료 영상 세그멘테이션 분야에서 트랜스포머는 자기 주의(Self-attention)를 통해 장거리 의존성을 효과적으로 포착할 수 있다는 점에서 큰 잠재력을 보여왔다. 그러나 픽셀 간 국소적(맥락적) 관계를 학습하는 능력이 부족하다는 한계를 지닌다. 기존 연구들은 이 문제를 해결하기 위해 트랜스포머의 인코더 또는 디코더 모듈에 컨볼루션 계층을 통합하려는 시도를 했으나, 때로는 일관성 없는 특징을 유도하는 결과를 초래했다. 본 연구에서는 계층적 비전 트랜스포머의 다중 스케일 특징을 활용하는 새로운 주의 기반 디코더, 즉 CASCaded Attention DEcoder(CASCADE)를 제안한다. CASCADE는 i) 스킵 연결을 통해 특징을 융합하는 주의 게이트(Attention Gate)와 ii) 배경 정보를 억제함으로써 장거리 및 국소 맥락 정보를 강화하는 컨볼루션 주의 모듈(Convolutional Attention Module)로 구성된다. 빠른 수렴 속도와 우수한 성능을 위해 다단계 특징 및 손실 집계 프레임워크를 도입하였다. 실험 결과, CASCADE를 적용한 트랜스포머는 최신의 CNN 기반 및 트랜스포머 기반 접근법보다 유의미하게 우수한 성능을 보였으며, DICE 점수에서 최대 5.07%, mIoU 점수에서 최대 6.16%의 개선을 달성하였다. 본 연구는 더 나은 주의 기반 디코더 설계를 위한 새로운 방향을 제시한다.