HealthGPT : Un grand modèle de vision-langue médical pour unifier la compréhension et la génération par l'adaptation de connaissances hétérogènes

Nous présentons HealthGPT, un puissant modèle de vision-langue médical (Med-LVLM) qui intègre des capacités de compréhension et de génération visuelles médicales au sein d'un paradigme autorégressif unifié. Notre philosophie de bootstrap consiste à adapter progressivement des connaissances hétérogènes en matière de compréhension et de génération aux grands modèles linguistiques pré-entraînés (LLMs). Cela est réalisé grâce à une nouvelle technique d'adaptation de faible rang hétérogène (H-LoRA), complétée par une approche de perception visuelle hiérarchique spécifique et une stratégie d'apprentissage en trois étapes. Pour permettre un apprentissage efficace de HealthGPT, nous avons élaboré un ensemble de données complet et spécifique au domaine médical appelé VL-Health. Les résultats expérimentaux démontrent les performances exceptionnelles et la scalabilité de HealthGPT dans les tâches unifiées de vision médicale. Notre projet peut être consulté à cette adresse URL : [this https URL]. Note: "this https URL" n'est pas traduit car il s'agit d'une référence directe à une adresse web. Si vous souhaitez inclure l'URL complète, veuillez me la fournir.