17 天前

VLN-PETL：面向视觉-语言导航的参数高效迁移学习

Yanyuan Qiao, Zheng Yu, Qi Wu

摘要

近年来，视觉-语言导航（Vision-and-Language Navigation, VLN）任务的性能取得了快速进展，这主要得益于大规模预训练视觉-语言模型的应用。然而，针对每个下游VLN任务均对预训练模型进行全量微调，由于模型规模庞大，正变得日益昂贵。近年来，参数高效迁移学习（Parameter-Efficient Transfer Learning, PETL）研究成为热点，其在常见计算机视觉（CV）与自然语言处理（NLP）任务中展现出高效微调大模型的巨大潜力——该方法充分利用预训练模型中蕴含的表征知识，同时仅需调整极少量参数。然而，直接将现有PETL方法应用于更具挑战性的VLN任务，可能导致性能显著下降。为此，本文首次系统探索了PETL方法在VLN任务中的适用性，并提出一种面向VLN任务的专用PETL方法——VLN-PETL。具体而言，我们设计了两个专用PETL模块：历史交互增强模块（Historical Interaction Booster, HIB）与跨模态交互增强模块（Cross-modal Interaction Booster, CIB）。随后，将这两个模块与多种现有PETL方法相结合，构建出集成化的VLN-PETL框架。在四个主流VLN任务（R2R、REVERIE、NDH、RxR）上的大量实验结果表明，所提出的VLN-PETL方法具有显著有效性：其性能可与全量微调相媲美，甚至在部分任务上超越全微调，同时显著优于其他现有PETL方法，展现出令人期待的性能优势。