6 个月前

Sungjin Park Taesun Whang Yeochan Yoon Heuiseok Lim

摘要

视觉对话（Visual Dialog）是一项具有挑战性的跨模态任务，要求模型基于给定图像对一系列具有视觉语境的问答进行连贯回应。为有效解决该任务，模型需具备对多种模态输入（如问题、对话历史和图像）的高层次理解能力。具体而言，智能体必须能够：1）准确识别问题的语义意图；2）在异构模态输入之间对齐与问题相关联的文本与视觉内容。本文提出多视角注意力网络（Multi-View Attention Network, MVAN），该模型基于注意力机制，从多个视角对异构输入进行建模。MVAN通过两个互补的模块——主题聚合（Topic Aggregation）与上下文匹配（Context Matching），有效从对话历史中捕捉与问题相关的信息，并通过一系列顺序对齐过程（即模态对齐，Modality Alignment）构建多模态表示。在VisDial v1.0数据集上的实验结果表明，所提出的模型在所有评估指标上均优于先前的最先进方法，验证了其有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Sungjin Park Taesun Whang Yeochan Yoon Heuiseok Lim

摘要

视觉对话（Visual Dialog）是一项具有挑战性的跨模态任务，要求模型基于给定图像对一系列具有视觉语境的问答进行连贯回应。为有效解决该任务，模型需具备对多种模态输入（如问题、对话历史和图像）的高层次理解能力。具体而言，智能体必须能够：1）准确识别问题的语义意图；2）在异构模态输入之间对齐与问题相关联的文本与视觉内容。本文提出多视角注意力网络（Multi-View Attention Network, MVAN），该模型基于注意力机制，从多个视角对异构输入进行建模。MVAN通过两个互补的模块——主题聚合（Topic Aggregation）与上下文匹配（Context Matching），有效从对话历史中捕捉与问题相关的信息，并通过一系列顺序对齐过程（即模态对齐，Modality Alignment）构建多模态表示。在VisDial v1.0数据集上的实验结果表明，所提出的模型在所有评估指标上均优于先前的最先进方法，验证了其有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供