8 个月前

Junwei Liang Lu Jiang Liangliang Cao Li-Jia Li Alexander Hauptmann

摘要

近期关于语言和视觉的神经网络研究已成功应用于简单的单图像视觉问答。然而，要解决个人照片等多媒体集合中的实际问答问题，我们需要考虑包含一系列照片或视频的整个集合。在回答来自大型集合的问题时，一个自然的问题是如何识别支持答案的片段。本文介绍了一种名为焦点视觉-文本注意力网络（FVTA）的新神经网络，用于在视觉问答中进行集体推理，其中既包括图像也包括文本元数据等视觉和文本序列信息。FVTA引入了一种端到端的方法，通过分层过程动态确定在顺序数据中关注哪些媒体和时间点以回答问题。FVTA不仅能够很好地回答问题，还能提供系统得出答案所依据的理由。FVTA在MemexQA数据集上取得了最先进的性能，并在MovieQA数据集上获得了具有竞争力的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Junwei Liang Lu Jiang Liangliang Cao Li-Jia Li Alexander Hauptmann

摘要

近期关于语言和视觉的神经网络研究已成功应用于简单的单图像视觉问答。然而，要解决个人照片等多媒体集合中的实际问答问题，我们需要考虑包含一系列照片或视频的整个集合。在回答来自大型集合的问题时，一个自然的问题是如何识别支持答案的片段。本文介绍了一种名为焦点视觉-文本注意力网络（FVTA）的新神经网络，用于在视觉问答中进行集体推理，其中既包括图像也包括文本元数据等视觉和文本序列信息。FVTA引入了一种端到端的方法，通过分层过程动态确定在顺序数据中关注哪些媒体和时间点以回答问题。FVTA不仅能够很好地回答问题，还能提供系统得出答案所依据的理由。FVTA在MemexQA数据集上取得了最先进的性能，并在MovieQA数据集上获得了具有竞争力的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供