HyperAIHyperAI

Command Palette

Search for a command to run...

基于网络监督的概念扩展以提升通用视觉模型的性能

Amita Kamath Christopher Clark Tanmay Gupta Eric Kolve Derek Hoiem Aniruddha Kembhavi

摘要

通用视觉(General Purpose Vision, GPV)系统是指设计用于解决广泛视觉任务而无需进行架构更改的模型。目前,GPV 主要通过大规模全监督数据集来学习技能和概念。然而,通过获取数据以学习每个技能下的数千个概念迅速变得不可行。本研究提出了一种有效且成本低廉的替代方案:从监督数据集中学习技能,从网络图像搜索中学习概念,并利用 GPV 的一个关键特性:能够在不同技能之间转移视觉知识的能力。我们使用了一个包含 100 多万张图像、涵盖 10,000 多个视觉概念的数据集,展示了两种现有 GPV 模型(GPV-1 和 VL-T5)在三个基准测试上的基于网络的监督概念扩展:5 个基于 COCO 的数据集(80 个主要概念)、新整理的 5 个基于 OpenImages 和 VisualGenome 数据库的数据集(约 500 个概念),以及一个来自网络的数据集(10,000 多个概念)。此外,我们还提出了一种新的架构——GPV-2,该架构支持多种任务,包括分类和定位等纯视觉任务、问答和图像描述等视觉+语言任务,以及更为专门的任务如人-物交互检测。GPV-2 在这些基准测试中受益于网络数据,并显著优于 GPV-1 和 VL-T5。我们的数据、代码和网络演示可访问 https://prior.allenai.org/projects/gpv2 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于网络监督的概念扩展以提升通用视觉模型的性能 | 论文 | HyperAI超神经