DuAT: 의료 영상 분할을 위한 이중 집계 트랜스포머 네트워크

기존의 트랜스포머 기반 모델은 장거리 의존성 모델링과 전역 표현 추출을 통해 컴퓨터 비전 작업에서 널리 성공을 거두었다. 그러나 이러한 모델은 대규모 패턴의 특징에 의해 지배되면서 국소적 세부 정보(예: 경계 및 소형 객체)가 손실되는 경향이 있으며, 이는 의료 영상 세그멘테이션에서 매우 중요한 요소이다. 이 문제를 완화하기 위해, 전역과 국소 공간 정보를 동시에 효과적으로 통합하고, 경계 세부 정보를 보존하며 재보정된 객체를 정확히 위치시키기 위해 두 가지 혁신적인 설계를 도입한 이중 집계 트랜스포머 네트워크(Dual-Aggregation Transformer Network, DuAT)를 제안한다. 첫 번째로, 전역에서 국소로의 공간 집계(Global-to-Local Spatial Aggregation, GLSA) 모듈은 전역 및 국소 공간 특징을 동시에 집계하고 표현할 수 있어, 대형 및 소형 객체의 위치 파악에 유리하다. 두 번째로, 선택적 경계 집계(Selective Boundary Aggregation, SBA) 모듈은 저수준 특징에서의 경계 특징과 고수준 특징에서의 의미 정보를 통합하여, 경계 세부 정보를 더 잘 보존하고 재보정된 객체를 정확히 탐지할 수 있도록 한다. 제안된 모델은 6개의 벤치마크 데이터셋에서 실시한 광범위한 실험을 통해 피부 병변 이미지 및 대장 내시경 영상에서의 폴립 세그멘테이션 작업에서 기존 최고 성능 모델들을 능가함을 입증하였다. 또한, 소형 객체 세그멘테이션 및 경계가 모호한 상황과 같은 다양한 도전적인 환경에서도 기존 방법보다 더 뛰어난 안정성과 성능을 보였다.