MedGemma 기술 보고서

인공지능(AI)은 의료 분야에서 중요한 잠재력을 가지고 있지만, 다양한 데이터, 복잡한 작업, 그리고 개인 정보 보호의 필요성으로 인해 훈련과 배포에 어려움이 따릅니다. 의료 작업에서 우수한 성능을 발휘하면서도 작업 특화 조정 데이터가 덜 필요한 기초 모델은 의료 AI 응용 프로그램의 개발을 가속화하는 데 필수적입니다. 우리는 Gemma 3 4B와 27B를 기반으로 한 의료 시각-언어 기초 모델들의 집합인 MedGemma를 소개합니다. MedGemma는 이미지와 텍스트에 대한 고급 의료 이해 및 추론 능력을 보여주며, 유사한 크기의 생성 모델보다 성능이 크게 뛰어나고 작업 특화 모델의 성능에 근접하면서도 Gemma 3 기본 모델의 일반적인 능력을 유지합니다. 분포 외 작업에서 MedGemma는 의료 다중모달 질문 답변에서 2.6-10%의 개선,흉부 X선 결과 분류에서 15.5-18.1%의 개선, 그리고 에이전트 평가에서 10.8%의 개선을 이루었습니다. MedGemma를 미세 조정하면 하위 영역에서 성능이 더욱 향상되며, 전자 건강 기록 정보 검색 오류를 50% 줄이고 기존 전문 최신 방법과 유사한 성능을 발휘하여 기흉 분류 및 조직병리 패치 분류에서도 동등하거나 더 나은 결과를 얻습니다. 또한 우리는 SigLIP을 기반으로 한 의료 특화 시각 인코더인 MedSigLIP을 소개합니다. MedSigLIP은 MedGemma의 시각 이해 능력을 지원하며, 인코더로서 전문적인 의료 이미지 인코더보다 동등하거나 더 우수한 성능을 보입니다. 종합적으로 보면, MedGemma 집합은 의료 이미지와 텍스트 처리 능력의 강력한 기초를 제공하며, 이는 의학 연구 및 하위 응용 프로그램 개발을 크게 가속화할 가능성이 있습니다. MedGemma 집합, 튜토리얼 및 모델 가중치는 이 https URL에서 확인할 수 있습니다.