2 个月前
自下而上和自上而下的注意力机制在图像描述生成和视觉问答中的应用
Peter Anderson; Xiaodong He; Chris Buehler; Damien Teney; Mark Johnson; Stephen Gould; Lei Zhang

摘要
自上而下的视觉注意力机制在图像描述生成和视觉问答(VQA)中得到了广泛应用,通过细粒度分析甚至多步推理,这些机制能够实现对图像的更深层次理解。在本研究中,我们提出了一种结合自下而上和自上而下注意力机制的方法,该方法能够在对象和其他显著图像区域的层面上计算注意力。这是考虑注意力机制的自然基础。在我们的方法中,自下而上的机制(基于Faster R-CNN)提出了图像区域,并为每个区域关联一个特征向量,而自上而下的机制则确定这些特征的权重。将这种方法应用于图像描述生成时,我们在MSCOCO测试服务器上的结果确立了该任务的新最先进水平,分别达到了CIDEr / SPICE / BLEU-4分数117.9、21.5和36.9。证明了该方法的广泛适用性,将其应用于VQA时,我们在2017年VQA挑战赛中获得了第一名。