
摘要
文本生成型视觉-语言模型的评估是一项具有挑战性但至关重要的任务。通过解决现有视觉问答(VQA)基准测试的局限性并提出创新的评估方法,我们的研究旨在深化对这些模型能力的理解。我们提出了一种基于知名视觉分类数据集的新VQA基准测试,该基准测试允许对文本生成型视觉-语言模型进行细致的评估,并将其与判别型视觉-语言模型进行比较。为了改进在细粒度分类任务中对粗略答案的评估,我们建议利用标签空间的语义层次结构自动生成关于真实类别的一系列后续问题。最后,我们对比了传统自然语言处理(NLP)和基于大语言模型(LLM)的评估指标,用于根据真实答案评价模型预测。我们进行了一个人类评估研究,以此为基础决定最终采用的评估指标。我们将这一基准测试应用于一系列视觉-语言模型,并展示了它们在物体、动作和属性分类任务上的详细对比结果。我们的贡献旨在为更精确和有意义的评估奠定基础,促进视觉-语言建模领域的定向发展。