17 天前

VLN-PETL:面向视觉-语言导航的参数高效迁移学习

Yanyuan Qiao, Zheng Yu, Qi Wu
VLN-PETL:面向视觉-语言导航的参数高效迁移学习
摘要

近年来,视觉-语言导航(Vision-and-Language Navigation, VLN)任务的性能取得了快速进展,这主要得益于大规模预训练视觉-语言模型的应用。然而,针对每个下游VLN任务均对预训练模型进行全量微调,由于模型规模庞大,正变得日益昂贵。近年来,参数高效迁移学习(Parameter-Efficient Transfer Learning, PETL)研究成为热点,其在常见计算机视觉(CV)与自然语言处理(NLP)任务中展现出高效微调大模型的巨大潜力——该方法充分利用预训练模型中蕴含的表征知识,同时仅需调整极少量参数。然而,直接将现有PETL方法应用于更具挑战性的VLN任务,可能导致性能显著下降。为此,本文首次系统探索了PETL方法在VLN任务中的适用性,并提出一种面向VLN任务的专用PETL方法——VLN-PETL。具体而言,我们设计了两个专用PETL模块:历史交互增强模块(Historical Interaction Booster, HIB)与跨模态交互增强模块(Cross-modal Interaction Booster, CIB)。随后,将这两个模块与多种现有PETL方法相结合,构建出集成化的VLN-PETL框架。在四个主流VLN任务(R2R、REVERIE、NDH、RxR)上的大量实验结果表明,所提出的VLN-PETL方法具有显著有效性:其性能可与全量微调相媲美,甚至在部分任务上超越全微调,同时显著优于其他现有PETL方法,展现出令人期待的性能优势。

VLN-PETL:面向视觉-语言导航的参数高效迁移学习 | 最新论文 | HyperAI超神经