2 个月前

LLaVA-Chef:一种用于食品食谱的多模态生成模型

Fnu Mohbat; Mohammed J. Zaki
LLaVA-Chef:一种用于食品食谱的多模态生成模型
摘要

在全球化的背景下,在线食谱分享领域迅速发展,对理解和生成食品食谱的研究也出现了显著的增长。近期,大型语言模型(LLMs)如GPT-2和LLaVA在这一领域的进展为自然语言处理(NLP)方法深入探索各种与食物相关的任务奠定了基础,这些任务包括食材识别和全面的食谱生成。尽管大型语言模型表现出色且具有多模态适应能力,但特定领域的训练对于其有效应用仍至关重要。本研究评估了现有的大型语言模型在食谱生成中的表现,并提出了一种新的模型——LLaVA-Chef,该模型通过一个多阶段的方法在精心策划的多样化食谱提示数据集上进行训练。首先,我们优化了视觉食物图像嵌入到语言空间的映射。其次,通过在相关食谱数据上微调LLaVA,使其适应食物领域。第三,我们利用多样化的提示来增强模型的食谱理解能力。最后,通过引入自定义损失函数对模型进行惩罚,以提高生成食谱的语言质量。实验结果表明,LLaVA-Chef相比预训练的大型语言模型和先前的工作有显著改进。详细的定性分析显示,与现有方法相比,LLaVA-Chef生成的食谱更加详细,并且能够精确提及食材。