초록
트랜스포머 기반 방법은 비전 트랜스포머(Vision Transformer)가 우수한 성능을 보이며 의료 영상 연구 분야에서 주도적인 위치를 차지하게 되었다. 트랜스포머 기반 접근법은 기존 컨볼루션 신경망(CNN) 방법에서 발생하는 장거리 의존성 문제를 해결했지만, 국소적 세부 정보를 포착하는 데 어려움을 겪는다. 최근 연구는 국소적 세부 정보와 의미 정보를 견고하게 통합하는 데 초점을 맞추고 있다. 이 문제를 해결하기 위해 본 연구에서는 새로운 트랜스포머-CNN 하이브리드 네트워크인 RAPUNet을 제안한다. 제안된 방법은 메타포머(MetaFormer)를 트랜스포머 백본으로 활용하며, 국소적 특징을 강화하고 국소 및 전역 특징 간의 통합 문제를 완화하기 위해 독자적인 컨볼루션 블록인 RAPU(병렬 구조의 잔차 및 아트러스 컨볼루션 유닛)를 도입한다. RAPUNet의 분할 성능은 폴립 분할을 위한 대표적인 벤치마크 데이터셋인 Kvasir-SEG, CVC-ClinicDB, CVC-ColonDB, EndoScene-CVC300, ETIS-LaribPolypDB에서 평가되었다. 실험 결과, 본 모델은 평균 디스코(_dice) 및 평균 IoU(mean IoU) 측면에서 경쟁력 있는 성능을 달성하였으며, 특히 CVC-ClinicDB 데이터셋에서는 최신 기술(SOTA) 방법들을 상회하는 성능을 보였다. 코드 공개: https://github.com/hyunnamlee/RAPUNet