2 个月前

MELTR: 用于学习微调视频基础模型的元损失变换器

Dohwan Ko; Joonmyung Choi; Hyeong Kyu Choi; Kyoung-Woon On; Byungseok Roh; Hyunwoo J. Kim
MELTR: 用于学习微调视频基础模型的元损失变换器
摘要

基础模型在多个领域的性能和泛化能力方面表现出色。然而,大多数关于基础模型的研究主要集中在预训练阶段,微调时通常采用一种简单的策略,即最小化单一任务特定损失。然而,这种微调方法未能充分利用其他可能对目标任务有益的损失函数。因此,我们提出了一种名为MEta Loss TRansformer(MELTR)的插件模块,该模块能够自动且非线性地结合多种损失函数,通过辅助学习来帮助目标任务的学习。我们将辅助学习问题表述为一个双层优化问题,并基于近似隐式微分(AID)提出了一种高效的优化算法。为了评估我们的框架,我们将其应用于多种视频基础模型(UniVL、Violet 和 All-in-one),并在四个下游任务上展示了显著的性能提升:文本到视频检索、视频问答、视频字幕生成和多模态情感分析。我们的定性分析表明,MELTR 能够充分“转换”各个损失函数,并将它们“融合”成一个有效的统一损失函数。代码可在 https://github.com/mlvlab/MELTR 获取。