感知编码器:最佳的视觉嵌入并非位于网络的输出层
Daniel Bolya, Po-Yao Huang, Peize Sun, Jang Hyun Cho, Andrea Madotto, Chen Wei, Tengyu Ma, Jiale Zhi, Jathushan Rajasegaran, Hanoona Rasheed, Junke Wang, Marco Monteiro, Hu Xu, Shiyu Dong, Nikhila Ravi, Daniel Li, Piotr Dollár, Christoph Feichtenhofer
发布日期: 4/18/2025

摘要
我们介绍了感知编码器(Perception Encoder, PE),这是一种通过简单的视觉-语言学习训练的最先进的图像和视频理解编码器。传统上,视觉编码器依赖于多种预训练目标,每个目标都针对特定的下游任务,如分类、描述或定位。令人惊讶的是,在扩展我们精心调整的图像预训练方案并使用我们强大的视频数据引擎进行优化后,我们发现仅通过对比视觉-语言训练就能为所有这些下游任务生成强大的、通用的嵌入表示。唯一的限制是:这些嵌入表示隐藏在网络的中间层中。为了提取这些嵌入表示,我们引入了两种对齐方法:用于多模态语言建模的语言对齐和用于密集预测的空间对齐。结合核心对比检查点,我们的PE模型系列在多种任务上实现了最先进的性能,包括零样本图像和视频分类与检索;文档、图像和视频问答;以及空间任务如检测、深度估计和跟踪。为了促进进一步的研究,我们将发布我们的模型、代码以及一个包含合成和人工标注视频的新数据集。