17일 전

PMC-CLIP: 생물의학 문서를 활용한 대조적 언어-이미지 사전 학습

Weixiong Lin, Ziheng Zhao, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, Weidi Xie
PMC-CLIP: 생물의학 문서를 활용한 대조적 언어-이미지 사전 학습
초록

최근 대규모 데이터셋으로 훈련된 기반 모델(Foundation models)이 컴퓨터 비전(CV) 및 자연어 처리(NLP) 분야에서 급속한 성장을 보이고 있으나, 생물의학 분야는 데이터 부족으로 인해 그 발전이 크게 뒤처져 있다. 이 문제를 해결하기 위해 우리는 PubMedCentral의 오픈액세스 하위 세트에서 수집한 총 160만 개의 이미지-캡션 쌍을 포함한 생물의학 데이터셋 PMC-OA를 구축하고 공개하였다. 이 데이터셋은 이전보다 8배 이상 큰 규모를 자랑하며, 다양한 모달리티 및 질병을 포괄하고 있다. 특히 이미지-캡션 쌍의 대부분이 더 세밀한 수준—즉, 하위 그림(subfigure)과 하위 캡션(subcaption)—에서 정확히 정렬되어 있다. PMC-OA에서 CLIP 스타일의 모델을 사전 훈련한 결과, 본 연구에서 개발한 모델인 PMC-CLIP은 ROCO의 이미지-텍스트 검색, MedMNIST 이미지 분류, 의료 분야의 질문 응답(VQA) 등 다양한 후속 작업에서 최신 기술(SOTA) 수준의 성능을 달성하였으며, 이미지-텍스트 검색에서는 R@10 기준 +8.1%, 이미지 분류에서는 정확도 기준 +3.9% 향상되는 성과를 보였다.