3달 전

FCB-SwinV2 Transformer를 활용한 폴립 세그멘테이션

Kerr Fitzgerald, Bogdan Matuszewski
FCB-SwinV2 Transformer를 활용한 폴립 세그멘테이션
초록

내시경 영상 프레임 내에서 폴립 세그멘테이션을 위한 딥러닝 모델의 활용은 임상의의 업무 흐름을 자동화할 잠재력을 지닌다. 이를 통해 폴립의 조기 발견률과 특성 분석이 향상되어 대장암으로 진행될 수 있는 폴립을 보다 효과적으로 관리할 수 있다. 최근 최신의 딥러닝 폴립 세그멘테이션 모델들은 병렬적으로 작동하는 완전 컨볼루션 네트워크(Fully Convolutional Network, FCN) 아키텍처와 트랜스포머 네트워크 아키텍처의 출력을 결합하는 방식을 채택하고 있다. 본 논문에서는 현재 최고 수준의 폴립 세그멘테이션 모델인 FCBFormer에 대한 개선을 제안한다. FCBFormer의 트랜스포머 아키텍처를 SwinV2 트랜스포머-UNET으로 대체하고, 완전 컨볼루션 네트워크 아키텍처에 일부 미세 조정을 가하여 FCB-SwinV2 트랜스포머 모델을 제안한다. 제안된 FCB-SwinV2 트랜스포머의 성능은 대표적인 내시경 세그멘테이션 벤치마킹 데이터셋인 Kvasir-SEG 및 CVC-ClinicDB에서 평가되었으며, 일반화 능력에 대한 테스트도 수행되었다. 실험 결과, FCB-SwinV2 트랜스포머는 모든 테스트에서 일관되게 높은 mDice 점수를 기록하며, 새로운 최고 성능을 나타내었다. 또한, 기존 문헌에서 폴립 세그멘테이션 모델의 성능 평가 방식에 존재하는 문제점들을 재조명하고 논의하였다. 특히 중요한 문제 중 하나는, CVC-ClinicDB 데이터셋에서 성능을 평가할 경우, 훈련/검증/테스트 데이터 분할 과정에서 동영상 시퀀스 간 데이터 유출(data leakage)이 발생하지 않도록 보장해야 한다는 점이다.