17 天前

切空间中的任务算术:预训练模型的改进编辑

Guillermo Ortiz-Jimenez, Alessandro Favero, Pascal Frossard
切空间中的任务算术:预训练模型的改进编辑
摘要

任务算术(Task Arithmetic)近期作为一种低成本且可扩展的方法,被广泛用于在权重空间中直接编辑预训练模型:通过将不同任务的微调权重相加,可提升模型在这些任务上的性能,而通过相减则会导致任务遗忘。然而,当前对任务算术有效性的理解及其内在机制仍较为有限。本文对视觉-语言模型中的任务算术进行了全面研究,揭示出权重解耦(weight disentanglement)是其有效性的关键因素。这一特性在预训练过程中自然形成,并表现为权重空间中不同的方向分别控制函数空间中与各任务相关联的、局部化的区域。值得注意的是,我们发现通过线性化模型并在其切空间(tangent space)中进行微调,能够显著增强权重解耦程度。这一机制在多个任务算术基准测试以及多种模型架构上均带来了显著的性能提升。基于上述发现,我们进一步对这些模型的神经正切核(Neural Tangent Kernel, NTK)进行了理论与实证分析,建立了任务算术与NTK特征函数空间局域化之间的有力关联。总体而言,本研究揭示了任务算术背后的新颖机制,提出了一种基于NTK线性化的更可靠、更高效的预训练模型编辑方法。