
최근 몇 년간, 다발성 종양(폴립) 세그멘테이션은 중요한 연구 주제로 부상하였으며, CNN, 비전 트랜스포머(Vision Transformer), 그리고 트랜스포머 기반 기법을 활용한 다양한 방법들이 개발되어 경쟁력 있는 성과를 거두었다. 그러나 이러한 기법들은 분포 외 데이터셋(out-of-distribution datasets), 경계 정보 누락, 소형 폴립 처리 등에 있어 여전히 어려움을 겪는다. 2022년, 메타포머(Meta-Former)가 시각 인식 분야의 새로운 베이스라인으로 제안되었으며, 다중 작업 컴퓨터 비전의 성능을 향상시키는 동시에 기존 비전 트랜스포머 및 CNN 기반 백본의 한계를 극복하는 데 기여하였다. 본 연구에서는 세그멘테이션 성능을 further 향상시키기 위해 메타포머와 UNet의 융합을 제안하고, 디코더 단계에 다중 해상도 업샘플링 블록(Multi-scale Upsampling block)을 도입하여 수준별 조합(level-up combination)을 적용함으로써 질감 정보를 강화하였다. 또한 메타포머의 아이디어를 기반으로 한 컨브포머(Convformer) 블록을 제안하여 국소 특징에서 중요한 정보를 더욱 강화하였다. 이러한 블록들은 폴립의 전반적인 형태와 같은 전역 정보와 국소 정보, 경계 정보를 효과적으로 통합할 수 있게 하여, 의료 영상 세그멘테이션의 의사결정에 필수적인 요소를 제공한다. 제안된 방법은 경쟁력 있는 성능을 달성하였으며, CVC-300, Kvasir, CVC-ColonDB 데이터셋에서 최신 기술(SOTA) 수준의 최고 성과를 기록하였다. Kvasir-SEG를 제외한 나머지 데이터셋은 모두 분포 외 데이터셋에 해당한다. 구현 코드는 다음 링크에서 확인할 수 있다: https://github.com/huyquoctrinh/MetaPolyp-CBMS2023.