SMMILE: 다중 모드 의료 문맥 학습을 위한 전문가 주도 벤치마크

다중모달 인-컨텍스트 학습(In-Context Learning, ICL)은 의학과 같은 분야에서 큰 잠재력을 가지고 있음에도 불구하고 여전히 충분히 연구되지 않고 있습니다. 임상의사는 종종 제한된 예시로부터 적응해야 하는 다양한 전문적인 작업을 경험합니다. 예를 들어, 몇 개의 관련 사례에서 통찰력을 얻거나 제한된 차별 진단 목록을 고려하는 등의 작업이 있습니다. 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 의학 시각적 질문 응답(Visual Question Answering, VQA) 분야에서 발전을 보여주었지만, 컨텍스트로부터 다중모달 작업을 학습하는 능력은 대부분 알려져 있지 않습니다. 우리는 SMMILE(Specialist-driven Multimodal In-Context Learning Evaluation)를 소개합니다. 이는 의학 작업을 위한 첫 번째 전문가 주도의 다중모달 ICL 벤치마크입니다. 11명의 의학 전문가가 각각 다중모달 쿼리와 다중모달 인-컨텍스트 예시를 포함하는 문제들을 선정했습니다. SMMILE는 6개의 의학 전공 분야와 13개의 영상 모달리티를 포괄하는 111개의 문제(517개의 질문-이미지-답변 세트)를 포함하고 있습니다. 또한, 1038개의 순서 조합 문제를 포함하는 확장 변형인 SMMILE++를 소개합니다. 15개의 MLLM에 대한 포괄적인 평가는 대부분 모델이 의학 작업에서 중간 수준 또는 낮은 다중모달 ICL 능력을 보임을 입증하였습니다. 개방형 평가에서는 ICL이 SMMILE에서 평균 8%, SMMILE++에서 9.4%의 개선 효과만을 나타냈습니다. 우리는 비관련 인-컨텍스트 예시에 대한 취약성을 관찰하였습니다: 단 하나의 노이즈나 비관련 예시조차 최대 9.5%까지 성능을 저하시킬 수 있습니다. 더욱이, 예시 순서는 최근성 편향(recency bias)을 나타내는데, 가장 관련성이 높은 예시를 마지막에 배치하면 최대 71%까지 상당한 성능 개선이 이루어질 수 있습니다. 우리의 연구 결과는 현재 MLLM들이 컨텍스트로부터 다중모달 의학 작업을 학습할 때 중요한 한계점과 편향성을 가짐을 강조합니다.