
내시경 영상 프레임 내에서 폴립 세그멘테이션을 위한 딥러닝 모델의 활용은 임상의의 업무 흐름을 자동화할 잠재력을 지닌다. 이를 통해 폴립의 조기 발견률과 특성 분석이 향상되어 대장암으로 진행될 수 있는 폴립을 보다 효과적으로 관리할 수 있다. 최근 최신의 딥러닝 폴립 세그멘테이션 모델들은 병렬적으로 작동하는 완전 컨볼루션 네트워크(Fully Convolutional Network, FCN) 아키텍처와 트랜스포머 네트워크 아키텍처의 출력을 결합하는 방식을 채택하고 있다. 본 논문에서는 현재 최고 수준의 폴립 세그멘테이션 모델인 FCBFormer에 대한 개선을 제안한다. FCBFormer의 트랜스포머 아키텍처를 SwinV2 트랜스포머-UNET으로 대체하고, 완전 컨볼루션 네트워크 아키텍처에 일부 미세 조정을 가하여 FCB-SwinV2 트랜스포머 모델을 제안한다. 제안된 FCB-SwinV2 트랜스포머의 성능은 대표적인 내시경 세그멘테이션 벤치마킹 데이터셋인 Kvasir-SEG 및 CVC-ClinicDB에서 평가되었으며, 일반화 능력에 대한 테스트도 수행되었다. 실험 결과, FCB-SwinV2 트랜스포머는 모든 테스트에서 일관되게 높은 mDice 점수를 기록하며, 새로운 최고 성능을 나타내었다. 또한, 기존 문헌에서 폴립 세그멘테이션 모델의 성능 평가 방식에 존재하는 문제점들을 재조명하고 논의하였다. 특히 중요한 문제 중 하나는, CVC-ClinicDB 데이터셋에서 성능을 평가할 경우, 훈련/검증/테스트 데이터 분할 과정에서 동영상 시퀀스 간 데이터 유출(data leakage)이 발생하지 않도록 보장해야 한다는 점이다.