7 个月前

自然语言处理

Peng Wang* Qi Wu* Chunhua Shen Anthony Dick Anton van den Hengel

摘要

视觉问答（VQA）在计算机视觉和自然语言处理领域受到了广泛关注，这不仅因为它提供了对两种重要信息源之间关系的洞察，还因为其潜在的应用价值。目前的数据集及基于这些数据集构建的模型主要集中在仅通过直接分析问题和图像本身即可回答的问题上。这类无需外部信息即可回答的问题虽然有趣，但范围非常有限。例如，它排除了需要常识或基本事实知识才能回答的问题。本文我们引入了一种新的VQA数据集——FVQA，该数据集要求并支持更深层次的推理。FVQA中只包含需要外部信息才能回答的问题。为此，我们在传统的视觉问答数据集基础上进行了扩展，传统数据集包含图像-问题-答案三元组，而扩展后的数据集则增加了图像-问题-答案-支持事实四元组。支持事实以结构化三元组的形式表示，例如<猫, 能够, 爬树>（<Cat, CapableOf, ClimbingTrees>）。我们对FVQA数据集上的几种基线模型进行了评估，并描述了一种新型模型，该模型能够在基于支持事实的情况下对图像进行推理。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

自然语言处理

Peng Wang* Qi Wu* Chunhua Shen Anthony Dick Anton van den Hengel

摘要

视觉问答（VQA）在计算机视觉和自然语言处理领域受到了广泛关注，这不仅因为它提供了对两种重要信息源之间关系的洞察，还因为其潜在的应用价值。目前的数据集及基于这些数据集构建的模型主要集中在仅通过直接分析问题和图像本身即可回答的问题上。这类无需外部信息即可回答的问题虽然有趣，但范围非常有限。例如，它排除了需要常识或基本事实知识才能回答的问题。本文我们引入了一种新的VQA数据集——FVQA，该数据集要求并支持更深层次的推理。FVQA中只包含需要外部信息才能回答的问题。为此，我们在传统的视觉问答数据集基础上进行了扩展，传统数据集包含图像-问题-答案三元组，而扩展后的数据集则增加了图像-问题-答案-支持事实四元组。支持事实以结构化三元组的形式表示，例如<猫, 能够, 爬树>（<Cat, CapableOf, ClimbingTrees>）。我们对FVQA数据集上的几种基线模型进行了评估，并描述了一种新型模型，该模型能够在基于支持事实的情况下对图像进行推理。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供