17일 전
MedSegDiff-V2: Transformer 기반 확산 모델을 이용한 의료 영상 세그멘테이션
Junde Wu, Wei Ji, Huazhu Fu, Min Xu, Yueming Jin, Yanwu Xu

초록
최근 컴퓨터 비전 분야에서 확산 확률 모델(Diffusion Probabilistic Model, DPM)은 Imagen, Latent Diffusion Models, Stable Diffusion와 같은 이미지 생성 응용 사례를 통해 큰 인기를 끌고 있다. 이러한 모델들은 놀라운 성능을 보이며 커뮤니티 내에서 광범위한 논의를 불러일으켰다. 최근 연구들은 DPM이 의료 영상 분석 분야에서도 유용함을 입증하고 있으며, 다양한 작업에서 뛰어난 성능을 보인 의료 영상 세분화 모델을 통해 그 가능성이 확인되었다. 이러한 모델들은 원래 UNet 아키텍처를 기반으로 개발되었지만, 비전 트랜스포머 메커니즘을 통합함으로써 성능을 further 향상시킬 수 있는 잠재적 길이 존재한다. 그러나 우리는 단순히 두 모델을 결합하는 방식만으로는 만족스러운 성능을 얻지 못했다는 점을 발견하였다. 의료 영상 세분화에 있어 이 두 가지 최첨단 기술을 효과적으로 통합하기 위해, 본 연구에서는 새로운 트랜스포머 기반 확산 프레임워크인 MedSegDiff-V2를 제안한다. 제안된 방법은 다양한 영상 모달리티를 가진 20개의 의료 영상 세분화 작업에서 검증되었으며, 종전의 최상위(SOTA) 기법들에 비해 우수한 성능을 입증하였다. 코드는 https://github.com/KidsWithTokens/MedSegDiff 에 공개되어 있다.