ScribFormer: Transformer이 스케치 기반 의료 영상 분할에서 CNN의 성능을 향상시킨다

최근의 스케치 지도 세그멘테이션 방법들은 일반적으로 인코더-디코더 구조를 갖춘 CNN 프레임워크를 채택하고 있다. 이 프레임워크는 여러 가지 장점가 있지만, 국소적 수용장( receptive field)을 가진 컨볼루션 계층이 일반적으로 짧은 거리의 특징 의존성만을 포착할 수 있어, 스케치 애너테이션으로 제공되는 제한된 정보로부터 전역적인 형태 정보를 학습하는 데 어려움이 있다. 이러한 문제를 해결하기 위해 본 논문은 스케치 지도 의료 영상 세그멘테이션을 위한 새로운 CNN-Transformer 하이브리드 솔루션인 ScribFormer을 제안한다. 제안된 ScribFormer 모델은 CNN 브랜치, Transformer 브랜치, 그리고 주의력 지도형 클래스 활성화 맵(ACAM) 브랜치로 구성된 삼중 브랜치 구조를 가진다. 구체적으로, CNN 브랜치와 Transformer 브랜치는 CNN에서 학습한 국소적 특징과 Transformer에서 얻은 전역적 표현을 융합함으로써, 기존의 스케치 지도 세그멘테이션 방법의 한계를 효과적으로 극복한다. 또한 ACAM 브랜치는 얕은 컨볼루션 특징과 깊은 컨볼루션 특징을 통합하여 모델 성능을 추가로 향상시킨다. 공개된 두 개의 데이터셋과 하나의 사내 데이터셋에서 실시한 광범위한 실험 결과, ScribFormer은 최신 기술 수준의 스케치 지도 세그멘테이션 방법들보다 우수한 성능을 보이며, 일부 경우에서는 완전 지도 학습 세그멘테이션 방법보다 더 나은 결과를 달성하였다. 코드는 https://github.com/HUANGLIZI/ScribFormer 에 공개되어 있다.