HyperAIHyperAI

Command Palette

Search for a command to run...

面向通用对象的基础模型在大规模图像和视频中的应用

Junfeng Wu Yi Jiang Qihao Liu Zehuan Yuan Xiang Bai Song Bai

摘要

在本工作中,我们介绍了GLEE,这是一种用于图像和视频中定位和识别对象的对象级基础模型。通过统一的框架,GLEE能够在开放世界场景中完成检测、分割、跟踪、定位和识别任意对象的各种对象感知任务。采用连贯的学习策略,GLEE从具有不同监督水平的多样化数据源中获取知识,形成通用的对象表示,从而在零样本迁移至新数据和新任务时表现出色。具体而言,我们使用了图像编码器、文本编码器和视觉提示器来处理多模态输入,能够在保持最先进性能的同时解决各种以对象为中心的下游任务。经过对来自多个基准测试集的超过五百万张图像的广泛训练,GLEE展示了出色的多功能性和改进的泛化性能,能够高效地应对下游任务而无需进行特定任务的适应。通过整合大量自动标注的数据,我们进一步增强了其零样本泛化能力。此外,GLEE可以集成到大型语言模型中,作为基础模型为多模态任务提供通用的对象级信息。我们希望该方法的多功能性和通用性将在开发适用于AGI系统的高效视觉基础模型方面迈出重要一步。模型和代码将在https://glee-vision.github.io 发布。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供