17일 전

의료 분야에서 Gemini 모델의 능력

Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David G. T. Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, S. M. Ali Eslami, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan
의료 분야에서 Gemini 모델의 능력
초록

다양한 의료 응용 분야에서의 우수성은 인공지능(AI)에 큰 도전 과제를 제기하며, 고도의 추론 능력, 최신 의료 지식에 대한 접근성, 그리고 복잡한 다중모달 데이터에 대한 이해가 필요하다. 지니(Gemini) 모델은 다중모달 및 장문맥 추론 능력이 뛰어나 의료 분야에서 흥미로운 가능성을 제시한다. 이러한 지니의 핵심 강점에 기반하여, 웹 검색을 원활하게 활용할 수 있고, 사용자 정의 인코더를 통해 새로운 모달리티에 효율적으로 적응할 수 있는 전문 의료 분야에 특화된 다중모달 모델인 '메드-지니(Med-Gemini)'를 소개한다. 메드-지니는 14개의 의료 벤치마크에서 평가되었으며, 그 중 10개에서 새로운 최고 성능(SoTA)을 기록했고, 직접 비교가 가능한 모든 벤치마크에서 GPT-4 모델 패밀리를 상회하며, 때로는 상당한 격차로 앞서갔다. 대표적인 MedQA(USMLE) 벤치마크에서는, 최고 성능을 발휘한 메드-지니 모델이 91.1%의 정확도를 기록하며 새로운 최고 성능을 달성했으며, 이는 새로운 불확실성 유도 검색 전략을 도입한 결과이다. NEJM 이미지 챌린지 및 MMMU(건강 및 의학)를 포함한 7개의 다중모달 벤치마크에서는 메드-지니가 GPT-4V보다 평균적으로 44.5%의 상대적 성능 향상을 보였다. 장문맥 처리 능력의 효과는 장기간 비식별화된 건강 기록에서 흉내를 찾는 ‘바늘을 풀 속에서 찾는’ 검색 작업 및 의료 영상 질문 응답에서 최고 성능을 기록함으로써 입증되었으며, 이는 단순한 컨텍스트 내 학습만으로도 이전의 특화된 방법들을 능가함을 보여준다. 마지막으로, 메드-지니의 성능은 의료 텍스트 요약과 같은 과제에서 인간 전문가를 초월함으로써 실제 적용 가능성을 시사하며, 다중모달 의료 대화, 의료 연구 및 교육 분야에서의 희망적인 잠재력도 입증했다. 종합적으로, 메드-지니의 성과는 그 잠재력에 대한 설득력 있는 증거를 제공하지만, 안전이 중요한 이 분야에서 실제 적용을 위해선 더욱 철저한 평가가 필수적일 것이다.