
摘要
非局部网络(Non-Local Network,NLNet)提出了一种开创性的方法,通过将查询特定的全局上下文聚合到每个查询位置来捕捉长距离依赖关系。然而,通过严格的实证分析,我们发现非局部网络在图像内不同查询位置建模的全局上下文几乎相同。在本文中,我们利用这一发现设计了一个基于查询无关公式化的简化网络,该网络在显著减少计算量的同时保持了NLNet的准确性。我们进一步观察到,这种简化的结构与挤压-激励网络(Squeeze-Excitation Network,SENet)具有相似之处。因此,我们将它们统一到一个用于全局上下文建模的三步通用框架中。在此通用框架下,我们设计了一种更好的实例化方案,称为全局上下文(Global Context,GC)块,该模块轻量且能有效建模全局上下文。轻量特性使得我们可以将其应用于骨干网络中的多个层以构建全局上下文网络(GCNet),该网络在各种识别任务的主要基准测试中通常优于简化的NLNet和SENet。代码和配置已发布在 https://github.com/xvjiarui/GCNet。