의료 분야에서 Gemini 모델의 능력

다양한 의료 응용 분야에서의 우수성은 인공지능(AI)에 큰 도전 과제를 제기하며, 고도의 추론 능력, 최신 의료 지식에 대한 접근성, 그리고 복잡한 다중모달 데이터에 대한 이해가 필요하다. 지니(Gemini) 모델은 다중모달 및 장문맥 추론 능력이 뛰어나 의료 분야에서 흥미로운 가능성을 제시한다. 이러한 지니의 핵심 강점에 기반하여, 웹 검색을 원활하게 활용할 수 있고, 사용자 정의 인코더를 통해 새로운 모달리티에 효율적으로 적응할 수 있는 전문 의료 분야에 특화된 다중모달 모델인 '메드-지니(Med-Gemini)'를 소개한다. 메드-지니는 14개의 의료 벤치마크에서 평가되었으며, 그 중 10개에서 새로운 최고 성능(SoTA)을 기록했고, 직접 비교가 가능한 모든 벤치마크에서 GPT-4 모델 패밀리를 상회하며, 때로는 상당한 격차로 앞서갔다. 대표적인 MedQA(USMLE) 벤치마크에서는, 최고 성능을 발휘한 메드-지니 모델이 91.1%의 정확도를 기록하며 새로운 최고 성능을 달성했으며, 이는 새로운 불확실성 유도 검색 전략을 도입한 결과이다. NEJM 이미지 챌린지 및 MMMU(건강 및 의학)를 포함한 7개의 다중모달 벤치마크에서는 메드-지니가 GPT-4V보다 평균적으로 44.5%의 상대적 성능 향상을 보였다. 장문맥 처리 능력의 효과는 장기간 비식별화된 건강 기록에서 흉내를 찾는 ‘바늘을 풀 속에서 찾는’ 검색 작업 및 의료 영상 질문 응답에서 최고 성능을 기록함으로써 입증되었으며, 이는 단순한 컨텍스트 내 학습만으로도 이전의 특화된 방법들을 능가함을 보여준다. 마지막으로, 메드-지니의 성능은 의료 텍스트 요약과 같은 과제에서 인간 전문가를 초월함으로써 실제 적용 가능성을 시사하며, 다중모달 의료 대화, 의료 연구 및 교육 분야에서의 희망적인 잠재력도 입증했다. 종합적으로, 메드-지니의 성과는 그 잠재력에 대한 설득력 있는 증거를 제공하지만, 안전이 중요한 이 분야에서 실제 적용을 위해선 더욱 철저한 평가가 필수적일 것이다.