6 个月前

摘要

本文聚焦于视觉计数任务，旨在根据一张自然图像和一个查询（如问题或类别）预测其中目标实例的数量。与大多数先前工作采用显式符号化模型（这类方法通常计算开销大且泛化能力有限）不同，本文提出了一种简洁而高效的新方法——通过重新审视局部融合查询与图像信息的调制卷积（modulated convolutions）。受残差瓶颈结构（residual bottleneck）设计的启发，我们将该方法命名为MoVie（Modulated conVolutional bottlenecks）。值得注意的是，MoVie采用隐式且整体化的推理机制，推理阶段仅需一次前向传播。尽管结构简单，MoVie在计数任务上展现出强大的性能：1）在面向计数的视觉问答（VQA）任务上取得了新的最先进水平，同时具备更高的效率；2）在COCO等具有挑战性的基准数据集上，对常见物体计数任务的表现优于现有最优方法；3）在2020年VQA挑战赛中，作为通用VQA模型中处理“数量”相关问题的模块，助力团队获得第一名。最后，我们提供了实证证据表明，诸如MoVie所采用的调制卷积机制，可作为一种通用的推理范式，适用于超越计数任务的多种视觉推理场景。

源 PDF