17일 전
스텝별 특성 융합: 로컬 가이드가 글로벌을 이끈다
Jinfeng Wang, Qiming Huang, Feilong Tang, Jia Meng, Jionglong Su, Sifan Song

초록
현재 대장 폴립 탐지 기술 중 가장 효율적이고 널리 인정받는 기술인 대장내시경은 대장암의 조기 스크리닝 및 예방에 필수적이다. 그러나 대장 폴립의 크기 변화와 복잡한 형태적 특성, 그리고 폴립과 점막 사이의 명확하지 않은 경계로 인해 정확한 폴립 세그멘테이션은 여전히 도전 과제이다. 딥러닝은 우수한 성능을 보이며 정확한 폴립 세그멘테이션 작업에 널리 활용되고 있다. 그러나 폴립 영상의 구조적 특성과 폴립 형태의 다양성으로 인해 기존의 딥러닝 모델은 현재 데이터셋에 과적합(overfitting)되기 쉬우며, 이로 인해 미처 접한 대장내시경 데이터를 처리하지 못할 수 있다. 이러한 문제를 해결하기 위해, 본 연구에서는 의료 영상 세그멘테이션을 위한 새로운 최신 기술 모델인 SSFormer을 제안한다. SSFormer은 피라미드형 트랜스포머 인코더를 사용하여 모델의 일반화 능력을 향상시킨다. 특히 제안하는 프로그레시브 로컬리티 디코더는 피라미드형 트랜스포머 백본과 적응 가능하게 설계되어 국소적 특징을 강조하고 주의 분산을 제한한다. SSFormer은 학습 성능과 일반화 평가 모두에서 최고 수준의 성능을 달성하였다.