HyperAI超神经

LoftUp: 用于视觉基础模型的基于坐标的特征上采样器学习

Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang
发布日期: 4/23/2025
LoftUp: 用于视觉基础模型的基于坐标的特征上采样器学习
摘要

视觉基础模型(VFMs)如DINOv2和CLIP在各种下游任务中取得了令人印象深刻的结果,但它们有限的特征分辨率限制了在需要像素级理解的应用中的性能。特征上采样提供了一个有前景的方向来解决这一挑战。在这项工作中,我们确定了两个关键因素来增强特征上采样:上采样器架构和训练目标。对于上采样器架构,我们引入了一种基于坐标的交叉注意力变压器,该变压器将高分辨率图像与坐标和低分辨率VFMs特征相结合,以生成清晰、高质量的特征。对于训练目标,我们提出利用类别无关的掩码和自蒸馏来构建高分辨率的伪地面真实特征。我们的方法能够有效捕捉细粒度细节,并灵活适应各种输入和特征分辨率。通过实验,我们证明了我们的方法在各种下游任务中显著优于现有的特征上采样技术。我们的代码已发布在https://github.com/andrehuang/loftup。 注:原文中的“Vision foundation models (VFMs)”、“coordinate-based cross-attention transformer”、“class-agnostic masks”、“self-distillation”等术语在中文翻译后括号中标注了原文以确保信息完整。