의료 영상에서 일반화된 세그멘테이션을 위한 하이브리드 이중 피라미드 트랜스포머-CNN를 통한 주의 메커니즘 재고

컴퓨터 비전 분야에서 Transformer의 성공 사례를 영감으로 삼아, Transformer는 의료 영상 세그멘테이션 분야에서 널리 연구되고 있다. 그러나 대부분의 Transformer 아키텍처는 최근의 Transformer 아키텍처를 인코더로 사용하거나, CNN 인코더와 병렬로 구성된 형태를 채택하고 있다. 본 논문에서는 강력한 CNN-Transformer 인코더를 효율적으로 구축하기 위해 설계된 새로운 하이브리드 CNN-Transformer 세그멘테이션 아키텍처(PAG-TransYnet)를 제안한다. 본 연구에서는 이중 피라미드 하이브리드 인코더 내부에 주의 집중 게이트(attention gate)를 활용하여, CNN과 Transformer 두 가지 브랜치에서 추출된 주요 특징을 효과적으로 융합한다. 본 방법론의 주요 기여는 다음과 같은 세 가지 측면으로 요약할 수 있다: (i) 다양한 해상도에서 두드러진 특징을 강조하기 위해 피라미드 입력(pyramid input)을 활용한 점, (ii) 다양한 해상도 간 장거리 의존성(long-range dependencies)을 포착하기 위해 PVT(Pyramid Vision Transformer)를 도입한 점, (iii) CNN 및 Transformer 브랜치로부터 도출된 주요 특징을 효과적으로 융합하기 위해 이중 주의 집중 게이트(dual-attention gate) 메커니즘을 구현한 점이다. 복잡한 세그멘테이션 과제들—복부 다기관 세그멘테이션, 감염 병변 세그멘테이션(Covid-19 및 골전이), 미세 조직 세그멘테이션(선세포 및 세포핵)—에 걸쳐 종합적인 평가를 수행한 결과, 제안한 방법은 최첨단 성능을 보이며 뛰어난 일반화 능력을 나타냈다. 본 연구는 의료 영상 응용 분야에서 효율적이고 적응 가능한 세그멘테이션 솔루션에 대한 절박한 수요를 해결하기 위한 중요한 진전을 나타낸다.