16 天前

视觉与语言编码器的桥梁:面向指代图像分割的参数高效微调

Zunnan Xu, Zhihong Chen, Yong Zhang, Yibing Song, Xiang Wan, Guanbin Li
视觉与语言编码器的桥梁:面向指代图像分割的参数高效微调
摘要

参数高效微调(Parameter Efficient Tuning, PET)因其在保持模型性能的同时显著减少参数量、提升硬件资源利用效率而受到广泛关注。然而,现有研究在密集预测任务以及多模态间交互方面的探索仍较为有限。本文针对指代图像分割任务,系统研究了参数高效微调中的关键问题。为此,我们提出一种新型适配器——Bridger,旨在促进跨模态信息交互,并将任务相关的特定信息有效注入预训练模型中。同时,我们设计了一种轻量级解码器以提升图像分割性能。实验结果表明,所提方法仅需更新主干网络1.61%至3.38%的参数,即可在多个具有挑战性的基准测试上实现与现有方法相当甚至更优的性能。相关代码已开源,地址为:\url{https://github.com/kkakkkka/ETRIS}。

视觉与语言编码器的桥梁:面向指代图像分割的参数高效微调 | 最新论文 | HyperAI超神经