SALI: 단기 정렬 및 장기 상호작용 네트워크를 이용한 대장내시경 영상 폴립 분할

대장내시경 영상은 직장암 진단을 위한 폴립 분할에 더 풍부한 정보를 제공합니다. 그러나 내시경의 빠른 이동과 근접 관찰은 현재 방법들이 큰 공간 일관성 부족과 지속적인 저품질 프레임으로 인해 제한된 분할 정확도를 보이는 원인이 됩니다. 이러한 맥락에서 우리는 인접 특징 일관성을 강화하고 신뢰할 수 있는 폴립 표현을 재구성하여 견고한 비디오 폴립 분할에 초점을 맞추었습니다. 이를 달성하기 위해 본 논문에서는 단기 조정 모듈(Short-term Alignment Module, SAM)과 장기 상호작용 모듈(Long-term Interaction Module, LIM)의 하이브리드인 SALI 네트워크를 제안합니다. SAM은 변형 가능한 합성곱(deformable convolution)을 통해 인접 프레임들의 공간적으로 일치된 특징을 학습하고, 이를 더욱 조화롭게 처리하여 더 안정적인 단기 폴립 표현을 포착합니다. 저품질 프레임의 경우, LIM은 과거 폴립 표현들을 장기 메모리 뱅크로 저장하고, 역행 관계를 탐색하여 현재 분할을 위해 더 신뢰할 수 있는 폴립 특징을 상호작용적으로 재구성합니다. SAM과 LIM를 결합한 SALI 네트워크는 공간적 변화와 시각적 힌트 부족에 대해 뛰어난 견고성을 보입니다. 대규모 SUNSEG 벤치마크에서 SALI는 4개의 테스트 서브셋에서 각각 Dice 점수를 2.1%, 2.5%, 4.1%, 1.9% 개선함으로써 현존하는 최신 기술들보다 우월함을 입증했습니다. 코드는 https://github.com/Scatteredrain/SALI에서 확인 가능합니다.