
摘要
问答、提问与评估是人类与生俱来的三种核心能力,对于理解世界和获取知识至关重要。通过增强这些能力,人类能够更高效地利用数据,从而实现更深入的理解与更优的学习成效。当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)主要聚焦于问答任务,往往忽视了提问与评估能力的潜在价值。受人类学习机制的启发,我们提出LOVA3——“学习多模态视觉问答、提问与评估”的创新框架,旨在赋予MLLMs上述额外能力。本方法设计了两项辅助训练任务:GenQA与EvalQA,分别用于培养模型在图像语境下提出问题和评估问题的能力。为提升提问能力,我们构建了一套全面的多模态基础任务集合;为评估能力的训练,我们引入了一个名为EvalQABench的新基准,包含64,000个训练样本(正负样本各半)以及5,000个验证与测试样本。我们假设,赋予MLLMs问答、提问与评估的综合能力,将显著增强其多模态理解能力,进而全面提升整体性能。为验证该假设,我们基于LOVA3框架训练MLLMs,并在多个多模态数据集与基准上进行评估。实验结果表明,模型在各项任务中均展现出一致且显著的性能提升,充分证明了新增任务在推动MLLMs实现更全面智能方面的重要作用。相关代码已开源,访问地址为:https://github.com/showlab/LOVA3。