Command Palette
Search for a command to run...
Yuheng Li Yenho Chen Yuxiang Lai Jike Zhong Vanessa Wildman Xiaofeng Yang

초록
영상진단 오류—부족한 판독, 주의력 맹점, 그리고 소통 실패—는 임상 현장에서 여전히 흔한 문제로 남아 있다. 이러한 문제들은 종종 국소적 이상의 누락, 전반적인 전경 정보의 제한, 그리고 보고서 언어의 다양성에 기인한다. 특히 3D 영상에서는 한 번의 스캔에 수백 개의 슬라이스를 검토해야 하므로 이러한 도전 과제는 더욱 심화된다. 이러한 문제를 해결하기 위해서는 정밀한 국소적 이상 탐지, 전 영상 체적 수준의 종합적 추론 능력, 그리고 의미 일관성이 있는 자연어 보고서 생성이 가능한 시스템이 필요하다. 그러나 기존의 3D 비전-언어 모델은 이 세 가지 요건을 동시에 충족하지 못하며, 공간적 추론을 위한 국소-전체적 이해 부족과, 정제되지 않은 영상의학 보고서의 다양성과 노이즈 문제로 인해 어려움을 겪는다. 본 연구에서는 3D CT 분석을 위한 다중 스케일의 의미 풍부한 비전-언어 사전 학습 프레임워크인 MedVista3D를 제안한다. 질병 동시 탐지와 포괄적 해석을 가능하게 하기 위해, MedVista3D는 전체 볼륨 맥락 내에서 세부적인 표현 학습을 위해 국소적 및 전역적 이미지-텍스트 정렬을 수행한다. 보고서의 다양성 문제를 해결하기 위해 언어 모델 기반의 보고서 재작성 기법을 적용하고, 의미 인식 기반 정렬을 위한 영상의학적 의미 매칭 백업(Radiology Semantic Matching Bank)을 도입하였다. MedVista3D는 제로샷 질병 분류, 보고서 검색, 의료 시각 질문 응답 등에서 최신 기술 수준의 성능을 달성하였으며, 장기 예후 예측 및 장기 분할 작업으로의 전이 학습에서도 우수한 성능을 보였다. 코드와 데이터셋은 공개될 예정이다.