17일 전

ResViT: 다중 모달 의료 영상 합성용 잔차 시각 트랜스포머

Onat Dalmaz, Mahmut Yurt, Tolga Çukur
ResViT: 다중 모달 의료 영상 합성용 잔차 시각 트랜스포머
초록

최근 컨볼루션 신경망(CNN) 기반의 생성적 적대 모델이 다양한 의료 영상 합성 과제에서 최첨단 성능을 보이고 있다. 그러나 CNN은 작고 정제된 필터를 사용해 국소적 처리에 최적화되어 있으며, 이러한 유도 편향은 맥락적 특징 학습을 저해한다. 본 연구에서는 비전 트랜스포머의 맥락 민감성과 컨볼루션 연산자의 정밀성, 그리고 적대적 학습의 현실감을 결합한 새로운 생성적 적대적 접근법인 ResViT를 제안한다. ResViT의 생성기(generator)는 새로운 집합형 잔차 트랜스포머(ART) 블록으로 구성된 중심 블록(bottleneck)을 채택하여, 잔차 컨볼루션 모듈과 트랜스포머 모듈을 유기적으로 통합한다. ART 블록 내 잔차 연결은 추출된 표현의 다양성을 증진시키며, 채널 압축 모듈은 작업에 관련된 정보를 효율적으로 정제한다. 또한 ART 블록 간에 가중치 공유 전략을 도입하여 계산 부담을 완화한다. 다양한 원본-대상 모달리티 구성에 대해 별도의 합성 모델을 재구성할 필요 없이 통합된 구현 방식을 제안함으로써 유연성을 확보하였다. 다중 대조 MRI에서 누락된 시퀀스 합성 및 MRI에서 CT 영상 합성에 대한 포괄적인 실험을 수행한 결과, ResViT는 정성적 관찰과 정량적 지표 모두에서 기존의 CNN 기반 및 트랜스포머 기반 방법들에 비해 우수한 성능을 보였다.