
マルチモーダル大規模言語モデル(MLLMs)は、医療診断分野において大きな潜在能力を示しています。しかし、特に眼科などの専門分野では、アノテーションの粒度の不連続性や臨床的推論ロジックの不一致といった重要な課題に直面しており、これにより正確なマルチモーダル理解が妨げられています。本論文では、眼科に特化したMLLMであるFundusExpertと、Fundus-Engineシステムを活用して構築されたデータセットFundusGenを紹介します。Fundus-Engineは、局所化を自動化し、MLLMを基盤とした意味拡張を用いて、単一の眼底画像内で全体的な疾患分類、局所的なオブジェクト検出、そして細粒度な特徴分析を統合します。さらに、臨床的に整合された認知チェーンを構築することで、モデルが解釈可能な推論経路を生成するように導くことができます。FundusGenから得られた指示データでファインチューニングされたFundusExpertは、眼科問答タスクにおいて最高の性能を達成し、40B MedRegAの平均精度を26.6%上回っています。また、ゼロショットレポート生成タスクにおいても優れた結果を示し、臨床的整合性が77.0%に達し、GPT-4oの47.6%を大きく上回っています。さらに、本研究ではデータ品質とモデル能力の間のスケーリング法則を明らかにし、FundusGenに含まれる認知整合アノテーションがデータ利用効率を向上させることを示しています。領域レベルの局所化と診断推論チェーンを統合することで、我々の研究は拡張性があり、臨床的に整合されたMLLMを開発し、特定のMLLMにおける視覚言語ギャップを埋めるための道を模索しました。本プロジェクトは以下のhttps URLで公開されています。