8 个月前

摘要

在本工作中，我们介绍了GLEE，这是一种用于图像和视频中定位和识别对象的对象级基础模型。通过统一的框架，GLEE能够在开放世界场景中完成检测、分割、跟踪、定位和识别任意对象的各种对象感知任务。采用连贯的学习策略，GLEE从具有不同监督水平的多样化数据源中获取知识，形成通用的对象表示，从而在零样本迁移至新数据和新任务时表现出色。具体而言，我们使用了图像编码器、文本编码器和视觉提示器来处理多模态输入，能够在保持最先进性能的同时解决各种以对象为中心的下游任务。经过对来自多个基准测试集的超过五百万张图像的广泛训练，GLEE展示了出色的多功能性和改进的泛化性能，能够高效地应对下游任务而无需进行特定任务的适应。通过整合大量自动标注的数据，我们进一步增强了其零样本泛化能力。此外，GLEE可以集成到大型语言模型中，作为基础模型为多模态任务提供通用的对象级信息。我们希望该方法的多功能性和通用性将在开发适用于AGI系统的高效视觉基础模型方面迈出重要一步。模型和代码将在https://glee-vision.github.io 发布。

源 PDF 查看代码