17일 전

LViT: 의료 영상 세그멘테이션에서 언어와 비전 트랜스포머의 만남

Zihan Li, Yunxiang Li, Qingde Li, Puyang Wang, Dazhou Guo, Le Lu, Dakai Jin, You Zhang, Qingqi Hong
LViT: 의료 영상 세그멘테이션에서 언어와 비전 트랜스포머의 만남
초록

딥러닝은 의료 영상 분할을 비롯한 다양한 분야에서 널리 활용되고 있다. 그러나 의료 영상 분할 모델의 성능은 데이터 레이블링 비용이 매우 높아 충분한 고품질 레이블 데이터를 확보하는 데 어려움을 겪고 있다. 이러한 한계를 완화하기 위해 본 연구에서는 언어와 시각 정보를 통합한 새로운 의료 영상 분할 모델인 LViT(Language meets Vision Transformer)를 제안한다. 제안하는 LViT 모델에서는 의료 텍스트 레이블을 도입하여 영상 데이터의 품질 부족을 보완하고, 반독립 학습 환경에서 더 고품질의 의사 레이블(pseudo label) 생성을 유도하는 데 텍스트 정보를 활용한다. 또한, 반독립 학습 환경에서 픽셀 수준의 주의 메커니즘(Pixel-Level Attention Module, PLAM)이 지역적 영상 특징을 효과적으로 유지할 수 있도록 지수형 의사 레이블 반복 기법(Exponential Pseudo label Iteration, EPI)을 제안한다. 본 모델에서는 언어-시각(LV, Language-Vision) 손실 함수를 설계하여 텍스트 정보를 직접 활용해 레이블이 없는 영상에 대한 학습을 감독한다. 평가를 위해 X선 및 CT 영상이 포함된 세 가지 다중모달 의료 분할 데이터셋(이미지 + 텍스트)을 구축하였다. 실험 결과, LViT는 완전 독립 학습 및 반독립 학습 모두에서 우수한 분할 성능을 보였다. 코드와 데이터셋은 https://github.com/HUANGLIZI/LViT 에서 공개되어 있다.