2 个月前

LLaVA-Med:一天内训练大型语言与视觉辅助系统以应用于生物医学

Chunyuan Li; Cliff Wong; Sheng Zhang; Naoto Usuyama; Haotian Liu; Jianwei Yang; Tristan Naumann; Hoifung Poon; Jianfeng Gao
LLaVA-Med:一天内训练大型语言与视觉辅助系统以应用于生物医学
摘要

对话生成式人工智能在赋能生物医学从业者方面展现出显著潜力,但目前的研究主要集中在单模态文本上。多模态对话AI通过利用公共网络上的数十亿图像-文本对取得了快速进展,然而这些通用领域的视觉-语言模型在理解和讨论生物医学图像时仍缺乏精细度。本文提出了一种成本效益高的方法,用于训练一个能够回答开放性生物医学图像研究问题的视觉-语言对话助手。该方法的核心思想是从PubMed Central中提取的大规模、广泛覆盖的生物医学图表-标题数据集出发,利用GPT-4从标题中自动生成开放性指令跟随数据,然后通过一种新颖的课程学习方法对大型通用领域视觉-语言模型进行微调。具体而言,模型首先学习使用图表-标题对来对齐生物医学词汇,随后再利用GPT-4生成的指令跟随数据来掌握开放性对话语义,大致模拟了普通人逐步获取生物医学知识的过程。这使得我们能够在不到15小时的时间内(使用八个A100 GPU)训练出一个大规模语言和视觉辅助系统(LLaVA-Med)。LLaVA-Med表现出色的多模态对话能力,并能遵循开放性指令以协助解决关于生物医学图像的查询问题。在三个标准的生物医学视觉问答数据集上,LLaVA-Med在某些指标上超越了先前的最佳监督方法。为了促进生物医学多模态研究的发展,我们将发布我们的指令跟随数据和LLaVA-Med模型。

LLaVA-Med:一天内训练大型语言与视觉辅助系统以应用于生物医学 | 最新论文 | HyperAI超神经