2 个月前
基于网络监督的概念扩展以提升通用视觉模型的性能
Amita Kamath; Christopher Clark; Tanmay Gupta; Eric Kolve; Derek Hoiem; Aniruddha Kembhavi

摘要
通用视觉(General Purpose Vision, GPV)系统是指设计用于解决广泛视觉任务而无需进行架构更改的模型。目前,GPV 主要通过大规模全监督数据集来学习技能和概念。然而,通过获取数据以学习每个技能下的数千个概念迅速变得不可行。本研究提出了一种有效且成本低廉的替代方案:从监督数据集中学习技能,从网络图像搜索中学习概念,并利用 GPV 的一个关键特性:能够在不同技能之间转移视觉知识的能力。我们使用了一个包含 100 多万张图像、涵盖 10,000 多个视觉概念的数据集,展示了两种现有 GPV 模型(GPV-1 和 VL-T5)在三个基准测试上的基于网络的监督概念扩展:5 个基于 COCO 的数据集(80 个主要概念)、新整理的 5 个基于 OpenImages 和 VisualGenome 数据库的数据集(约 500 个概念),以及一个来自网络的数据集(10,000 多个概念)。此外,我们还提出了一种新的架构——GPV-2,该架构支持多种任务,包括分类和定位等纯视觉任务、问答和图像描述等视觉+语言任务,以及更为专门的任务如人-物交互检测。GPV-2 在这些基准测试中受益于网络数据,并显著优于 GPV-1 和 VL-T5。我们的数据、代码和网络演示可访问 https://prior.allenai.org/projects/gpv2 获取。