MedGemma 技術報告書

人工知能(AI)は医療応用において大きな可能性を持っていますが、多様なデータ、複雑なタスク、およびプライバシーの保護の必要性により、その訓練と展開には課題があります。医療タスクで優れた性能を発揮し、より少ないタスク固有の調整データを必要とする基盤モデルは、医療AI応用の開発を加速するために重要です。本稿では、Gemma 3 4Bおよび27Bに基づく医療ビジョン言語基盤モデルのコレクションであるMedGemmaを紹介します。MedGemmaは画像とテキストに対する高度な医療理解力と推論能力を示し、同規模の生成モデルの性能を大幅に上回り、タスク固有モデルに近い性能を維持しながら、Gemma 3ベースモデルの一般的な機能も保持しています。 分布外タスクにおいて、MedGemmaは医療マルチモーダル質問回答で2.6-10%の改善、胸部X線所見分類で15.5-18.1%の改善、エージェンシ評価で10.8%の改善を達成しています。MedGemmaの微調整によりサブドメインでの性能がさらに向上し、電子健康記録情報検索における誤差が50%削減され、気胸分類や組織病理学パッチ分類における既存の専門的な最先端手法と同等またはそれ以上の性能を達成しています。 また、SigLIPから派生した医療向けに調整されたビジョンエンコーダーであるMedSigLIPも紹介します。MedSigLIPはMedGemmaの視覚理解能力を支え、エンコーダーとして専門的な医療画像エンコーダーと同等かそれ以上の性能を達成しています。総じて、MedGemmaコレクションは医療画像とテキストに関する強固な基盤を提供しており、下流アプリケーションの開発や医療研究を大幅に加速する可能性があります。MedGemmaコレクション(チュートリアルやモデルウェイト含む)はこのhttps URLから入手できます。