2ヶ月前
HealthGPT: 医療用大規模ビジョン言語モデル - 異種知識適応による統合的理解と生成
Tianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi

要約
私たちは、医療視覚言語大規模モデル(Med-LVLM)であるHealthGPTを紹介します。このモデルは、統一された自己回帰パラダイム内で医療視覚の理解と生成機能を統合しています。私たちのブートストラッピング哲学は、異なる理解と生成の知識を段階的に事前学習済みの大規模言語モデル(LLMs)に適応させることです。これは、新しい異種低ランクアダプテーション(H-LoRA)技術によって達成され、さらに階層的な視覚認識手法と三段階学習戦略が補完されています。HealthGPTの効果的な学習のために、私たちは医療分野特有の包括的な理解と生成データセットであるVL-Healthを開発しました。実験結果は、HealthGPTが医療視覚統合タスクにおいて優れた性能とスケーラビリティを持つことを示しています。当プロジェクトへのアクセスは、このhttps URLから可能です。