
摘要
本文介绍了堆叠注意力网络(Stacked Attention Networks, SANs),该网络能够从图像中学习回答自然语言问题。SANs 使用问题的语义表示作为查询,以搜索图像中与答案相关的区域。我们认为,图像问答(Image Question Answering, QA)通常需要多个推理步骤。因此,我们开发了一种多层SAN,在该网络中,我们多次查询图像,逐步推断出答案。在四个图像问答数据集上进行的实验表明,所提出的SANs显著优于先前的最佳方法。注意力层的可视化展示了SAN逐层定位相关视觉线索的过程,这些线索最终引导出问题的答案。