AgileFormer: 공간적으로 민첩한 트랜스포머 U-Net을 이용한 의료 이미지 분할

과거 수십 년 동안 딥 뉴럴 네트워크, 특히 컨볼루션 신경망(CNN)은 다양한 의료 이미지 분할 작업에서 최고의 성능을 달성해 왔습니다. 최근 비전 트랜스포머(Vision Transformer, ViT)의 도입으로 딥 분할 모델의 구조가 크게 변화하였습니다. 그 결과 ViT에 대한 관심이 급증하고 있으며, 이는 우수한 성능과 확장성 때문입니다. 그러나 우리는 현재 비전 트랜스포머 기반의 UNet(ViT-UNet) 분할 모델 설계가 의료 이미지 분할 작업에서 관심 대상 물체의 이질적인 형태(예: 다양한 형상과 크기)를 효과적으로 처리하지 못할 가능성이 있다고 주장합니다. 이러한 문제를 해결하기 위해, 우리는 ViT-UNet에 공간적으로 동적인 구성 요소를 도입하는 체계적인 접근 방식을 제시합니다. 이 적응은 목표물체의 다양한 형태를 효과적으로 포착할 수 있도록 세 가지 주요 구성 요소를 통해 이루어집니다: \textbf{(i)} 변형 가능한 패치 임베딩(deformable patch embedding); \textbf{(ii)} 공간적으로 동적인 다중 헤드 어텐션(spatially dynamic multi-head attention); \textbf{(iii)} 변형 가능한 위치 인코딩(deformable positional encoding). 이러한 구성 요소들은 새로운 아키텍처인 AgileFormer에 통합되었습니다. AgileFormer는 의료 이미지 분할을 위한 공간적으로 민첩한 ViT-UNet입니다. 공개 데이터셋을 사용한 세 가지 분할 작업 실험에서 제안된 방법의 효과성이 입증되었습니다. 코드는 \href{https://github.com/sotiraslab/AgileFormer}{https://github.com/sotiraslab/AgileFormer}에서 제공됩니다.