3달 전

FCN-Transformer 특징 융합을 통한 폴립 세그멘테이션

Edward Sanderson, Bogdan J. Matuszewski
FCN-Transformer 특징 융합을 통한 폴립 세그멘테이션
초록

대장내시경 검사는 결장암(CRC) 조기 진단을 위한 금 standard로 널리 인식되고 있다. 세그멘테이션은 병변 탐지 및 분류와 같은 두 가지 중요한 임상적 응용에서 유용하며, 정확도와 견고성을 향상시키는 수단을 제공한다. 대장내시경 영상에서 폴립을 수작업으로 세그멘테이션하는 것은 시간이 오래 걸리는 작업이다. 이에 따라 폴립 세그멘테이션의 자동화를 위해 딥러닝(DL) 기술의 활용이 중요해지고 있다. 그러나 딥러닝 기반 솔루션은 과적합(overfitting)에 취약할 수 있으며, 이로 인해 다른 내시경 장비에서 촬영된 영상에 일반화되지 못하는 문제가 발생할 수 있다. 최근 제안된 트랜스포머 기반의 의미 세그멘테이션 아키텍처들은 기존 대안들에 비해 높은 성능과 더 나은 일반화 능력을 보이고 있으나, 일반적으로 입력 영상의 크기가 $h \times w$일 경우, $\frac{h}{4} \times \frac{w}{4}$의 공간 해상도를 가진 세그멘테이션 맵을 예측한다. 본 연구에서는 이러한 문제를 해결하기 위해, 주 분기(primary branch)에서 트랜스포머의 강점을 활용하여 세그멘테이션에 가장 중요한 특징을 효과적으로 추출하고, 보조적인 완전 컨볼루션 분기(fully convolutional branch)를 통해 전체 크기 예측에서 트랜스포머의 한계를 보완하는 새로운 아키텍처를 제안한다. 두 분기에서 도출된 특징은 최종적으로 융합되어 $h \times w$ 크기의 세그멘테이션 맵을 생성한다. 제안된 방법은 Kvasir-SEG 및 CVC-ClinicDB 데이터셋 기준으로 mDice, mIoU, mPrecision, mRecall 등의 지표에서 최신 기술 수준의 성능을 입증하였다. 또한 각 데이터셋에서 모델을 훈련하고 다른 데이터셋에서 평가함으로써, 본 방법이 뛰어난 일반화 성능을 보임을 실험적으로 확인하였다.