7일 전

ViT-V-Net: 비전 트랜스포머를 활용한 비지도 체적 의료 영상 정렬

Junyu Chen, Yufan He, Eric C. Frey, Ye Li, Yong Du
ViT-V-Net: 비전 트랜스포머를 활용한 비지도 체적 의료 영상 정렬
초록

지난 10년 동안 컨볼루션 신경망(ConvNets)은 다양한 의료 영상 응용 분야에서 주도적인 위치를 차지하며 최첨단 성능을 달성해왔다. 그러나 ConvNets의 성능은 이미지 내 장거리 공간적 관계를 이해하지 못하는 한계에 직면해 있다. 최근 제안된 이미지 분류를 위한 비전 트랜스포머(Vision Transformer, ViT)는 순수하게 자기 주의(Self-attention) 기반 모델을 사용하여 장거리 공간적 관계를 학습함으로써 이미지의 관련 부분에 집중할 수 있다. 그러나 ViT는 연속적인 다운샘플링으로 인해 저해상도 특징에 과도하게 초점을 맞추게 되어 세부적인 위치 정보의 회복이 부족하게 되며, 이로 인해 영상 정합(image registration)에 적합하지 않다. 최근 몇몇 ViT 기반의 영상 세분화 방법들이 ConvNets와 결합되어 세부적인 위치 정보 회복을 개선하려는 시도가 이루어졌다. 이러한 연구들에 영감을 받아, 본 연구에서는 ViT와 ConvNet을 융합하여 체적 의료 영상 정합을 가능하게 하는 ViT-V-Net을 제안한다. 제시된 실험 결과는 제안한 아키텍처가 여러 최고 성능을 자랑하는 정합 방법들에 비해 뛰어난 성능을 달성함을 보여준다.

ViT-V-Net: 비전 트랜스포머를 활용한 비지도 체적 의료 영상 정렬 | 최신 연구 논문 | HyperAI초신경