8 个月前

计算机视觉

Simon Ging María A. Bravo Thomas Brox

摘要

文本生成型视觉-语言模型的评估是一项具有挑战性但至关重要的任务。通过解决现有视觉问答（VQA）基准测试的局限性并提出创新的评估方法，我们的研究旨在深化对这些模型能力的理解。我们提出了一种基于知名视觉分类数据集的新VQA基准测试，该基准测试允许对文本生成型视觉-语言模型进行细致的评估，并将其与判别型视觉-语言模型进行比较。为了改进在细粒度分类任务中对粗略答案的评估，我们建议利用标签空间的语义层次结构自动生成关于真实类别的一系列后续问题。最后，我们对比了传统自然语言处理（NLP）和基于大语言模型（LLM）的评估指标，用于根据真实答案评价模型预测。我们进行了一个人类评估研究，以此为基础决定最终采用的评估指标。我们将这一基准测试应用于一系列视觉-语言模型，并展示了它们在物体、动作和属性分类任务上的详细对比结果。我们的贡献旨在为更精确和有意义的评估奠定基础，促进视觉-语言建模领域的定向发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Simon Ging María A. Bravo Thomas Brox

摘要

文本生成型视觉-语言模型的评估是一项具有挑战性但至关重要的任务。通过解决现有视觉问答（VQA）基准测试的局限性并提出创新的评估方法，我们的研究旨在深化对这些模型能力的理解。我们提出了一种基于知名视觉分类数据集的新VQA基准测试，该基准测试允许对文本生成型视觉-语言模型进行细致的评估，并将其与判别型视觉-语言模型进行比较。为了改进在细粒度分类任务中对粗略答案的评估，我们建议利用标签空间的语义层次结构自动生成关于真实类别的一系列后续问题。最后，我们对比了传统自然语言处理（NLP）和基于大语言模型（LLM）的评估指标，用于根据真实答案评价模型预测。我们进行了一个人类评估研究，以此为基础决定最终采用的评估指标。我们将这一基准测试应用于一系列视觉-语言模型，并展示了它们在物体、动作和属性分类任务上的详细对比结果。我们的贡献旨在为更精确和有意义的评估奠定基础，促进视觉-语言建模领域的定向发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

利用分类数据集及其语义层次结构对视觉-语言模型进行开放式VQA基准测试 | 论文 | HyperAI超神经