
활성화된 신경망(Convolutional Neural Networks, CNNs)과 트랜스포머(Transformer)는 생물의학 영상 분할 분야에서 가장 널리 사용되는 아키텍처이지만, 각각의 구조적 특성상 장거리 종속성(Long-range dependency)을 효과적으로 다루는 데 한계가 있다. CNN은 본질적인 국소성(Locality)에 기인하여, 멀리 떨어진 영역 간의 상관관계를 포착하기 어렵고, 트랜스포머는 계산 복잡도가 높아 대규모 영상 처리에 적합하지 않다. 이러한 문제를 해결하기 위해, 본 연구에서는 생물의학 영상 분할을 위한 일반적인 목적의 네트워크인 U-Mamba를 제안한다. 최근 강력한 장기 시계열 처리 능력으로 주목받고 있는 상태 공간 시퀀스 모델(State Space Sequence Models, SSMs)의 아이디어를 차용하여, 컨볼루션 계층의 국소적 특징 추출 능력과 SSM의 장거리 종속성 모델링 능력을 결합한 하이브리드 CNN-SSM 블록을 설계하였다. 또한 U-Mamba는 수동적인 조정 없이 다양한 데이터셋에 자동으로 적응할 수 있는 자기 구성(self-configuring) 메커니즘을 갖추고 있다. 우리는 CT 및 MRI 영상에서의 3D 복부 장기 분할, 내시경 영상에서의 도구 분할, 현미경 영상에서의 세포 분할 등 네 가지 다양한 과제에 걸쳐 광범위한 실험을 수행하였으며, 그 결과 U-Mamba는 모든 과제에서 최첨단의 CNN 기반 및 트랜스포머 기반 분할 네트워크를 모두 상회하는 성능을 보였다. 이는 생물의학 영상 분석에서 효율적인 장거리 종속성 모델링을 위한 새로운 가능성을 열어준다. 코드, 모델 및 데이터는 공개적으로 제공되며, https://wanglab.ai/u-mamba.html 에서 확인할 수 있다.