医学におけるGeminiモデルの能力

幅広い医療分野における優れた性能を実現することは、AIにとって大きな課題であり、高度な推論能力、最新の医療知識へのアクセス、複雑なマルチモーダルデータの理解が求められる。Geminiモデルは、マルチモーダルおよび長文文脈推論において優れた汎用性を有しており、医療分野における有望な可能性を提供している。このGeminiの基盤的な強みを活かして、本研究では、医療に特化した高度なマルチモーダルモデル群「Med-Gemini」を紹介する。Med-Geminiは、ウェブ検索をスムーズに活用できるほか、カスタムエンコーダーを用いて新しいモダリティに効率的に適応可能である。14の医療ベンチマークにおいてMed-Geminiを評価した結果、そのうち10項目で新たな最良(SoTA)性能を達成し、直接比較が可能なすべてのベンチマークでGPT-4シリーズを上回った。特に、人気のあるMedQA(USMLE)ベンチマークでは、新規の不確実性誘導型検索戦略を採用した最良のMed-Geminiモデルが91.1%の精度を達成し、SoTAを記録した。NEJM画像チャレンジやMMMU(健康・医学)を含む7つのマルチモーダルベンチマークでは、GPT-4Vと比較して平均で44.5%の相対的な性能向上を実現した。また、長文の匿名化健康記録からの「針の山の中の針」検索タスクや、医療動画に対する質問応答タスクにおいても、Med-Geminiは、文脈内学習(in-context learning)のみで過去の特化型手法を上回るSoTA性能を示し、その長文文脈処理能力の有効性を実証した。さらに、医療テキストの要約などにおいて人間の専門家を上回る性能を示すことで、Med-Geminiの実用性の可能性を裏付けた。また、マルチモーダル医療対話、医療研究、教育分野における有望な応用例も提示した。総合的に見て、本研究の結果はMed-Geminiの潜在能力を強く示唆しているが、安全性が極めて重要な医療分野における実用化に際しては、さらなる厳密な評価が不可欠である。