2달 전

PMC-VQA: 의료 시각적 질문 응답을 위한 시각적 지시어 조정

Zhang, Xiaoman ; Wu, Chaoyi ; Zhao, Ziheng ; Lin, Weixiong ; Zhang, Ya ; Wang, Yanfeng ; Xie, Weidi
PMC-VQA: 의료 시각적 질문 응답을 위한 시각적 지시어 조정
초록

의료 시각적 질문 응답(MedVQA)은 인공지능을 활용하여 의료 이미지를 해석하고 질문에 답함으로써 진단 정확도와 의료 서비스 제공을 향상시키는 중요한 기회를 제시합니다. 본 연구에서는 MedVQA 문제를 인간-기계 상호작용을 자연스럽게 따르는 생성 작업으로 재구성하고, 사전 학습된 시각 인코더에서 얻은 시각 정보를 대형 언어 모델과 일치시키는 생성 기반 모델을 제안하여 의료 시각 이해를 위한 접근 방식을 제시합니다. 우리는 다양한 모달리티나 질병을 포함하는 149,000장의 이미지로 구성된 227,000개의 VQA 쌍이 포함된 대규모 의료 시각적 질문 응답 데이터셋인 PMC-VQA를 구축하기 위한 확장 가능한 파이프라인을 설립하였습니다. 제안된 모델은 PMC-VQA에서 학습한 후 VQA-RAD, SLAKE, Image-Clef-2019 등의 여러 공개 벤치마크에서 미세 조정(fine-tune)되어 관련성 있고 정확한 자유 형식의 답변 생성에서 기존 MedVQA 모델들을 크게 능가하였습니다. 또한, 수동 검증을 거친 테스트 세트를 제안하였는데, 이는 현저히 더 어려운 것으로 알려져 있어 생성형 MedVQA 방법의 개발을 더욱 효과적으로 모니터링할 수 있도록 합니다. 포괄적인 평가와 비교를 용이하게 하기 위해 https://paperswithcode.com/paper/pmc-vqa-visual-instruction-tuning-for-medical 에서 리더보드를 유지하고 있으며, 이는 진행 상황 추적과 최신 접근법 벤치마킹에 중앙화된 자원을 제공합니다. PMC-VQA 데이터셋은 연구 분야에서 중요한 자원으로 부상하였으며, MedVInT는 MedVQA 영역에서 큰 돌파구를 마련하였습니다.

PMC-VQA: 의료 시각적 질문 응답을 위한 시각적 지시어 조정 | 최신 연구 논문 | HyperAI초신경