
다중모달 대규모 언어모델(Multimodal Large Language Models, MLLMs)은 의료 진단 분야에서 큰 잠재력을 보여주고 있다. 그러나 안과와 같은 전문 분야에서는 주석의 세부 수준 분산과 임상적 추론 논리의 불일치 등과 같은 주요 도전 과제에 직면해 있으며, 이는 정확한 다중모달 이해를 방해하고 있다. 본 논문에서는 안과 분야에 특화된 MLLM인 FundusExpert와, Fundus-Engine 시스템을 통해 지능적으로 구축된 FundusGen 데이터셋을 제안한다. Fundus-Engine은 위치 지정을 자동화하고, MLLM 기반의 의미 확장 기법을 활용하여 단일 안저 이미지 내에서 전반적인 질병 분류, 지역적 객체 탐지, 세부 특징 분석을 통합한다. 또한, 임상적으로 일치하는 인지 체인을 구축함으로써 모델이 해석 가능한 추론 경로를 생성하도록 안내한다. FundusGen에서 제공한 지시 데이터로 미세 조정된 FundusExpert는 안과 질문-답변 작업에서 최고의 성능을 보이며, 40B MedRegA의 평균 정확도보다 26.6% 높은 성능을 달성한다. 또한, 제로-샷 보고서 생성 작업에서 우수한 성능을 보여, 임상 일관성에서 77.0%를 기록하여 GPT-4o의 47.6%를 현저히 능가한다. 더불어, 본 연구는 데이터 품질과 모델 능력 사이의 스케일링 법칙을 밝혀내며, FundusGen의 인지 일치 주석이 데이터 활용 효율성을 향상시킨다는 것을 보여준다. 지역 수준의 위치 지정과 진단 추론 체인을 통합함으로써, 본 연구는 확장 가능한 임상적으로 일치하는 MLLM을 개발하고 특정 MLLM에서의 시각-언어 간 격차를 극복하는 길을 탐구한다. 본 프로젝트는 이 https URL에서 확인할 수 있다.