
흉부 X선 영상은 급성 및 만성 심폐질환을 예측하는 데 일반적으로 사용되지만, 구조화된 임상 데이터와의 통합은 전자 의료 기록(EHR)의 불완전성으로 인해 어려움을 겪고 있습니다. 본 논문에서는 흉부 X선 진단을 위해 영상과 EHR 데이터를 결합하는 첫 번째 임상 의사 결정 지원 시스템인 MedPromptX를 소개합니다. 사전 학습된 다중 모달 대형 언어 모델(MLLM)이 활용되어 누락된 EHR 정보를 보완하여 환자의 의학적 이력을 포괄적으로 이해할 수 있도록 합니다. 또한, 소수 샷 프롬프팅(FP)은 MLLM의 광범위한 학습 필요성을 줄이면서 환각 문제를 효과적으로 해결합니다. 그러나 최적의 소수 샷 예제 수를 결정하고 고품질 후보를 선택하는 과정은 부담스러울 수 있으며, 이는 모델 성능에 깊은 영향을 미칩니다. 따라서, 새로운 기술을 제안하여 새로운 환자 상황에 실시간으로 적응하기 위해 소수 샷 데이터를 동적으로 정제합니다. 더불어, 시각적 근거(VG)는 X선 영상에서 검색 범위를 좁혀 이상 징후의 식별을 개선합니다. 우리는 MIMIC-IV 및 MIMIC-CXR-JPG 데이터베이스에서 파생된 중첩된 영상과 EHR 데이터를 포함하는 새로운 컨텍스트 내 시각적 질문 응답 데이터셋인 MedPromptX-VQA도 공개합니다. 결과는 MedPromptX가 기존 기준모델보다 F1 점수가 11% 향상되는 최신 기술(SOTA) 성능을 보여주었습니다. 코드와 데이터는 https://github.com/BioMedIA-MBZUAI/MedPromptX에서 공개되었습니다.