2 个月前

面向通用对象的基础模型在大规模图像和视频中的应用

Wu, Junfeng ; Jiang, Yi ; Liu, Qihao ; Yuan, Zehuan ; Bai, Xiang ; Bai, Song
面向通用对象的基础模型在大规模图像和视频中的应用
摘要

在本工作中,我们介绍了GLEE,这是一种用于图像和视频中定位和识别对象的对象级基础模型。通过统一的框架,GLEE能够在开放世界场景中完成检测、分割、跟踪、定位和识别任意对象的各种对象感知任务。采用连贯的学习策略,GLEE从具有不同监督水平的多样化数据源中获取知识,形成通用的对象表示,从而在零样本迁移至新数据和新任务时表现出色。具体而言,我们使用了图像编码器、文本编码器和视觉提示器来处理多模态输入,能够在保持最先进性能的同时解决各种以对象为中心的下游任务。经过对来自多个基准测试集的超过五百万张图像的广泛训练,GLEE展示了出色的多功能性和改进的泛化性能,能够高效地应对下游任务而无需进行特定任务的适应。通过整合大量自动标注的数据,我们进一步增强了其零样本泛化能力。此外,GLEE可以集成到大型语言模型中,作为基础模型为多模态任务提供通用的对象级信息。我们希望该方法的多功能性和通用性将在开发适用于AGI系统的高效视觉基础模型方面迈出重要一步。模型和代码将在https://glee-vision.github.io 发布。