2 个月前

通过引导硬注意力学习视觉问答

Mateusz Malinowski; Carl Doersch; Adam Santoro; Peter Battaglia
通过引导硬注意力学习视觉问答
摘要

在生物感知中,注意力机制被认为会选择感知信息的子集进行更为复杂的处理,而对所有感官输入进行全面处理则是不可行的。然而,在计算机视觉领域,尽管软注意力(即信息被重新加权和聚合,但从未被过滤掉)取得了成功,但对于硬注意力(即某些信息被选择性忽略)的研究却相对较少。本文介绍了一种新的硬注意力方法,并发现其在最近发布的视觉问答数据集上表现非常具有竞争力,在某些情况下甚至超过了类似的软注意力架构,同时完全忽略了某些特征。虽然硬注意力机制被认为是非可微分的,但我们发现特征的幅度与语义相关性有关联,并为我们的机制提供了有用的注意选择标准。由于硬注意力选择了输入信息的重要特征,因此它可能比类似的软注意力机制更高效。这一点对于近期使用非局部成对操作的方法尤为重要,因为这些方法的计算和内存成本与特征集合大小呈二次关系。