7 个月前

自然语言处理

自然语言处理

Yulei Niu Hanwang Zhang Manli Zhang Jianhong Zhang Zhiwu Lu Ji-Rong Wen

摘要

视觉对话是一项具有挑战性的视觉-语言任务，要求代理回答关于图像的多轮问题。它通常需要解决两个主要问题：(1) 如何回答基于视觉的问题，这是视觉问答（VQA）的核心挑战；(2) 如何推断问题与对话历史之间的共指关系。一个视觉共指的例子是：问题中的代词（例如，“他们”）与对话历史中出现的名词（例如，“灯”）以及图像中定位的对象相关联（例如，前一个问题为“有多少盏灯？”）。在本研究中，为了在视觉对话中解决视觉共指问题，我们提出了一种新颖的注意力机制，称为递归视觉注意力（Recursive Visual Attention, RvA）。具体而言，我们的对话代理会浏览对话历史，直到对视觉共指解析有足够的信心，并在此过程中递归地细化视觉注意力。在大规模VisDial v0.9和v1.0数据集上的定量和定性实验结果表明，所提出的RvA不仅优于现有最先进方法，而且在没有额外注释的情况下实现了合理的递归和可解释的注意力图。代码可在以下网址获取：\url{https://github.com/yuleiniu/rva}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

自然语言处理

自然语言处理

Yulei Niu Hanwang Zhang Manli Zhang Jianhong Zhang Zhiwu Lu Ji-Rong Wen

摘要

视觉对话是一项具有挑战性的视觉-语言任务，要求代理回答关于图像的多轮问题。它通常需要解决两个主要问题：(1) 如何回答基于视觉的问题，这是视觉问答（VQA）的核心挑战；(2) 如何推断问题与对话历史之间的共指关系。一个视觉共指的例子是：问题中的代词（例如，“他们”）与对话历史中出现的名词（例如，“灯”）以及图像中定位的对象相关联（例如，前一个问题为“有多少盏灯？”）。在本研究中，为了在视觉对话中解决视觉共指问题，我们提出了一种新颖的注意力机制，称为递归视觉注意力（Recursive Visual Attention, RvA）。具体而言，我们的对话代理会浏览对话历史，直到对视觉共指解析有足够的信心，并在此过程中递归地细化视觉注意力。在大规模VisDial v0.9和v1.0数据集上的定量和定性实验结果表明，所提出的RvA不仅优于现有最先进方法，而且在没有额外注释的情况下实现了合理的递归和可解释的注意力图。代码可在以下网址获取：\url{https://github.com/yuleiniu/rva}。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供