Command Palette
Search for a command to run...

초록
다양한 모달리티를 통합하는 대규모 언어 모델(Multimodal Large Language Models, MLLMs)인 GPT-4V 등의 급속한 발전은 중요한 진전을 이뤄냈다. 그러나 의료 분야의 다모달 능력 측면에서 이러한 모델들은 데이터 프라이버시 문제와 높은 주석 비용으로 인해 의료 영상-텍스트 데이터의 양과 질이 제한되어 있어 여전히 도전 과제에 직면해 있다. 일부 선도적인 접근법은 PubMed의 대규모이고 익명화된 의료 영상-텍스트 쌍을 활용하여 이러한 한계를 극복하려 했으나, 본질적인 데이터 노이즈 문제로 인해 여전히 한계를 지닌다. 이를 해결하기 위해 우리는 PubMed의 의료 영상-텍스트 쌍을 정제하고, GPT-4V와 같은 MLLMs를 '눈에 띄는 방식(비마스크된 방식)'으로 활용하여 데이터의 노이즈를 제거하고 구조를 재정비함으로써, 총 130만 개의 의료 VQA(질의응답) 샘플을 포함하는 PubMedVision 데이터셋을 구축하였다. 우리의 검증 결과는 다음과 같다: (1) PubMedVision은 기존 MLLMs의 의료 다모달 능력을 크게 향상시킬 수 있으며, MMMU Health & Medicine 트랙을 포함한 다양한 벤치마크에서 두드러진 성능 향상을 보였다; (2) 의료 전문가의 수작업 검토와 실증적 결과를 통해, 기존 데이터 구축 방법과 비교해 본 데이터셋의 우수한 데이터 품질을 입증하였다. PubMedVision을 활용해 34B 파라미터 규모의 의료 전용 MLLM인 HuatuoGPT-Vision을 훈련시킨 결과, 오픈소스 MLLMs 중에서 의료 다모달 시나리오에서 뛰어난 성능을 나타냈다.