2 个月前

基于联合损失最小化的循环回答单元训练用于视觉问答(VQA)

Hyeonwoo Noh; Bohyung Han
基于联合损失最小化的循环回答单元训练用于视觉问答(VQA)
摘要

我们提出了一种基于循环深度神经网络的视觉问答新算法,其中网络中的每个模块本身都对应一个带有注意力机制的完整回答单元。该网络通过最小化所有单元聚合的损失进行优化,这些单元共享模型参数,但接收不同的信息以计算注意力概率。在训练过程中,我们的模型关注图像特征图中的某个区域,根据问题和关注的图像特征更新其记忆,并基于记忆状态回答问题。这一过程在每一步中都会执行以计算损失。该方法的动机源于我们的观察,即通常需要多步推理才能回答问题,而每个问题所需的理想步骤数可能各不相同,在实际应用中很难确定。因此,我们总是让网络中的第一个单元解决问题,但允许它通过反向传播从其他单元学习知识,除非这样做会降低模型性能。为了实现这一想法,我们在每个单元开始过拟合时立即停止其训练。需要注意的是,由于更复杂的模型往往会在较简单的问题上迅速过拟合,因此展开的循环神经网络中的最后一个回答单元通常会最先被终止训练,而第一个单元则保留到最后。我们使用共享模型对新问题进行单步预测。这种策略在我们的框架内优于其他选项,因为所选模型能够从所有单元的有效训练中受益而不发生过拟合。提出的算法在VQA数据集上使用单步预测的表现优于其他基于多步注意力的方法。