11 天前

MoVie:重新审视用于视觉计数及其他任务的调制卷积

Duy-Kien Nguyen, Vedanuj Goswami, Xinlei Chen
MoVie:重新审视用于视觉计数及其他任务的调制卷积
摘要

本文聚焦于视觉计数任务,旨在根据一张自然图像和一个查询(如问题或类别)预测其中目标实例的数量。与大多数先前工作采用显式符号化模型(这类方法通常计算开销大且泛化能力有限)不同,本文提出了一种简洁而高效的新方法——通过重新审视局部融合查询与图像信息的调制卷积(modulated convolutions)。受残差瓶颈结构(residual bottleneck)设计的启发,我们将该方法命名为MoVie(Modulated conVolutional bottlenecks)。值得注意的是,MoVie采用隐式且整体化的推理机制,推理阶段仅需一次前向传播。尽管结构简单,MoVie在计数任务上展现出强大的性能:1)在面向计数的视觉问答(VQA)任务上取得了新的最先进水平,同时具备更高的效率;2)在COCO等具有挑战性的基准数据集上,对常见物体计数任务的表现优于现有最优方法;3)在2020年VQA挑战赛中,作为通用VQA模型中处理“数量”相关问题的模块,助力团队获得第一名。最后,我们提供了实证证据表明,诸如MoVie所采用的调制卷积机制,可作为一种通用的推理范式,适用于超越计数任务的多种视觉推理场景。

MoVie:重新审视用于视觉计数及其他任务的调制卷积 | 最新论文 | HyperAI超神经