11 天前

追踪遇见LoRA:更快速的训练、更大的模型、更强的性能

Liting Lin, Heng Fan, Zhipeng Zhang, Yaowei Wang, Yong Xu, Haibin Ling
追踪遇见LoRA:更快速的训练、更大的模型、更强的性能
摘要

受大规模语言模型中参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)的启发,我们提出LoRAT——一种能够充分发挥视觉Transformer(ViT)模型在视觉跟踪任务中潜力的方法,且仅需实验室级别的计算资源即可实现。本工作的核心在于将LoRA(Low-Rank Adaptation)这一仅微调模型中少量参数、不引入推理延迟的技术,成功迁移至视觉跟踪领域。然而,由于该领域存在独特的挑战与潜在的领域差异,这种迁移远非直观设想般简单。首先,基于Transformer的跟踪器通常为模板图像与搜索图像分别构建非共享的位置编码,这与LoRA在预训练主干网络迁移至下游任务时通常要求结构一致性的设计原则相冲突。其次,卷积头固有的归纳偏置(inductive bias)削弱了参数高效微调在跟踪模型中的有效性。为克服上述限制,我们提出两项关键改进:其一,将Transformer跟踪器中的位置编码解耦为共享的空间位置编码与独立的类型编码。其中,共享编码用于描述多尺度图像(即模板图像与搜索图像)的绝对坐标,直接继承自预训练主干网络;而独立编码则用于标识每个token的来源,从零开始学习。其二,我们设计了一种完全基于MLP的无锚框头(anchor-free head),以适配PETR架构,在显著降低计算开销的同时实现更优性能。得益于上述设计,LoRAT实现了以下成果:1)在仅配备25.8GB显存的GPU上即可训练采用ViT-g主干的跟踪器(批量大小为16),显著降低硬件门槛;2)将L-224变体的训练时间从35.0 GPU小时缩短至10.8 GPU小时;3)在LaSOT数据集上,L-224变体的SUC(Success Rate)得分由0.703提升至0.742;4)L-224变体的推理速度从52 FPS提升至119 FPS,实现显著加速。相关代码与模型已开源,地址为:https://github.com/LitingLin/LoRAT。